Informasi

Bisakah jumlah berbagi gen dalam keturunan dapat dengan mudah dihitung?

Bisakah jumlah berbagi gen dalam keturunan dapat dengan mudah dihitung?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Saya melihat di web penjelasan tentang cara menghitung jumlah gen tertentu pada seseorang. Misalnya: jika kakek Anda orang Prancis dan nenek Anda orang Amerika, maka ayah Anda orang Prancis 50 dan orang Amerika 50%. Kemudian dia bertemu dengan seorang wanita Amerika dan anak mereka akan menjadi 50/2 = 25% Prancis dan 50% Amerika. Dan seterusnya… membagi setiap kali dengan dua. Apakah itu kebenaran?


Setiap orang tua mewariskan separuh DNA mereka ke anak-anak mereka. Ada jumlah DNA yang tidak terbatas, tetapi sangat tinggi. Ini berarti untuk generasi pertama memang benar: jika Ibu memiliki 100% gen merah dan Ayah memiliki 100% gen hijau, anak akan memiliki 50% gen hijau dan 50% merah. Untuk generasi kedua, untuk orang dengan gen campuran, itu menjadi benar hanya rata-rata. Jadi, jika anak memiliki 50% gen hijau dan 50% merah, dengan mewariskan setengah gennya, secara teoritis ia dapat mewariskan semua gen merah, atau semua gen hijau. Sangat mungkin tidak akan lulus tepat setengah dari masing-masing. Tetapi karena ada banyak gen, hukum rata-rata melakukan itu dalam praktiknya Anda dapat mengatakan bahwa mereka mewariskan setengah dari masing-masing gen, artinya jika orang tua lainnya memiliki semua gen hijau, anak yang dihasilkan akan menjadi 75% gen hijau, 25% merah. Ini memang berlangsung dari generasi ke generasi untuk sementara sampai Anda mengalami keterbatasan DNA; pada titik tertentu jumlahnya akan cukup kecil sehingga mereka tidak lagi mengikuti hukum rata-rata, dan menjadi jauh lebih bervariasi apakah seorang anak mendapatkan komplemen penuh dari gen merah orang tuanya, atau tidak sama sekali, atau jumlah perantara.

Ini semakin rumit ketika kita tidak berbicara tentang gen "merah" atau "hijau" yang abstrak, tetapi gen "Amerika" atau "Prancis". Apa sih gen "Amerika" atau "Prancis" itu? Kumpulan gen manusia cukup tercampur dengan baik, dengan sebagian besar gen dibagikan secara luas. Mereka yang dapat digunakan untuk mengidentifikasi etnis tertentu atau bahkan asal-usul nasional jumlahnya cukup rendah sehingga apa yang saya katakan sebelumnya tentang hukum rata-rata yang tidak lagi berlaku terjadi lebih awal jika Anda melihat subkategori gen tertentu. Namun, itu berhasil selama beberapa generasi, saya percaya.


VITCOMIC2: alat visualisasi untuk komposisi filogenetik komunitas mikroba berdasarkan amplikon gen 16S rRNA dan urutan senapan metagenomik

Analisis sekuensing amplikon berbasis gen 16S rRNA banyak digunakan untuk menentukan komposisi taksonomi komunitas mikroba. Setelah komposisi taksonomi setiap komunitas diperoleh, hubungan evolusioner antar taksa disimpulkan oleh pohon filogenetik. Dengan demikian, representasi gabungan dari komposisi taksonomi dan hubungan filogenetik antar taksa adalah metode yang ampuh untuk memahami struktur komunitas mikroba. Namun, menerapkan representasi berbasis pohon filogenetik dengan informasi tentang kelimpahan ribuan atau lebih taksa di setiap komunitas adalah tugas yang sulit. Untuk tujuan ini, kami sebelumnya mengembangkan alat VITCOMIC (alat visualisasi untuk Komposisi Taksonomi Komunitas Mikroba), yang didasarkan pada informasi filogenetik mikroba yang diurutkan genom. Di sini, kami memperkenalkan VITCOMIC2, yang menggabungkan peningkatan substantif atas VITCOMIC yang diperlukan untuk mengatasi beberapa masalah yang terkait dengan analisis komunitas mikroba berbasis gen 16S rRNA.

Hasil

Kami mengembangkan VITCOMIC2 untuk menyediakan (i) pencarian identitas urutan terhadap taksa referensi luas termasuk taksa yang tidak berbudaya (ii) normalisasi perbedaan nomor salinan gen 16S rRNA di antara taksa (iii) pencarian identitas urutan cepat dengan menerapkan alat pencarian identitas urutan berbasis unit pemrosesan grafis CLAST (iv) inferensi komposisi taksonomi yang akurat dan rekonstruksi sekuens gen 16S rRNA yang hampir penuh untuk sekuensing senapan metagenomik dan (v) antarmuka pengguna interaktif untuk representasi simultan dari komposisi taksonomi komunitas mikroba dan hubungan filogenetik antar taksa. Kami memvalidasi keakuratan proses (ii) dan (iv) dengan menggunakan data sekuensing senapan metagenomik dari komunitas mikroba tiruan.

Kesimpulan

Peningkatan yang dimasukkan ke dalam VITCOMIC2 memungkinkan pengguna untuk memperoleh pemahaman intuitif tentang komposisi komunitas mikroba berdasarkan data urutan gen 16S rRNA yang diperoleh dari senapan metagenomik dan urutan amplikon.


Pengantar

Jumlah besar dan peningkatan variasi data genomik dan proteomik yang dihasilkan untuk organisme model menciptakan peluang untuk dalam silikon prediksi fungsi gen melalui ekstrapolasi sifat fungsional gen yang diketahui. Gen dengan pola ekspresi yang sama [1], sintetik mematikan [2], atau sensitivitas kimia [3] sering memiliki fungsi yang serupa. Selain itu, fungsi cenderung dimiliki bersama di antara gen yang produk gennya berinteraksi secara fisik [4], merupakan bagian dari kompleks yang sama [5], atau memiliki struktur tiga dimensi yang serupa [6]. Analisis komputasi juga mengungkapkan fungsi bersama di antara gen dengan profil filogenetik yang sama [7] atau dengan domain protein bersama [8]. Prediksi yang lebih akurat dapat dibuat dengan menggabungkan berbagai sumber data genomik dan proteomik yang heterogen [9]. Secara kolektif, pengamatan ini telah menyebabkan kategorisasi fungsional dari sejumlah gen yang sebelumnya tidak dikarakterisasi menggunakan apa yang disebut prinsip 'bersalah demi asosiasi' [10-12].

Algoritma yang memprediksi fungsi gen menggunakan prinsip rasa bersalah-oleh-asosiasi melakukannya dengan memperluas 'daftar benih' gen yang diketahui memiliki fungsi tertentu dengan menambahkan gen lain yang sangat terkait dengan daftar benih dalam satu atau lebih sumber data genomik dan proteomik. Algoritma ini biasanya menghitung 'jaringan asosiasi fungsional' untuk mewakili setiap dataset dalam jaringan ini node sesuai dengan gen atau protein dan link tidak diarahkan (atau tepi) yang berbobot sesuai dengan bukti co-fungsionalitas tersirat oleh sumber data. Jenis jaringan asosiasi fungsional termasuk kernel yang digunakan oleh mesin vektor dukungan (SVMs) [9], jaringan hubungan fungsional [13], dan peta hubungan protein-protein [14]. Jaringan asosiasi fungsional individu sering digabungkan untuk menghasilkan jaringan asosiasi fungsional komposit yang merangkum semua bukti fungsi bersama. Jaringan ini kemudian digunakan sebagai masukan untuk algoritme yang menilai setiap gen berdasarkan kedekatannya dengan gen dalam daftar benih. Ketika digunakan pada beberapa sumber data pelengkap, algoritme ini dapat secara akurat memprediksi fungsi gen beranotasi sebelumnya dalam tes buta [15], menunjukkan bahwa prediksi mereka untuk gen yang tidak beranotasi juga cukup akurat.

Terlepas dari keberhasilan ini, algoritme rasa bersalah-oleh-asosiasi belum mencapai penggunaan luas dalam anotasi gen atau sebagai sumber hipotesis baru tentang fungsi gen untuk melakukannya, prediksi mereka perlu menjadi lebih mudah diakses, lebih akurat, dan lebih diperbarui secara teratur. Pada prinsipnya, semua data yang tersedia harus digunakan ketika membuat hipotesis tentang fungsi gen, namun, mengumpulkan sejumlah besar sumber data yang heterogen, menghasilkan jaringan asosiasi fungsional untuk mewakili sumber-sumber ini, dan kemudian memetakan pengidentifikasi gen di antara jaringan adalah tugas yang kompleks dan berat. paling baik ditangani oleh spesialis. 'Server prediksi' berbasis web yang dikelola secara terpusat adalah strategi yang efisien untuk memastikan bahwa pengguna biasa memiliki akses ke prediksi terbaik yang tersedia.

Namun, mempertahankan server prediksi yang akurat dan mutakhir dapat menjadi penghalang komputasi. Meskipun sejumlah besar algoritma telah dikembangkan untuk memprediksi fungsi gen yang tidak bernotasi dengan menggabungkan sumber data yang heterogen (lihat [16] untuk tinjauan baru-baru ini), yang paling akurat dari algoritma ini memiliki waktu berjalan yang lama, yang dapat berkisar dari menit [17] ] hingga jam [9] pada ragi. Genom mamalia yang lebih besar meningkatkan waktu menjalankan algoritma ini lebih banyak lagi. Dengan demikian, algoritme ini tidak dapat dijalankan secara online dan sebaliknya prediksinya dibuat offline berdasarkan kumpulan daftar benih yang telah ditentukan sebelumnya, misalnya, dari anotasi Gene Ontology (GO) [18]. Namun, karena data dan anotasi baru dihasilkan dengan kecepatan tinggi, mempertahankan database terkini dari prediksi terbaik yang tersedia untuk semua fungsi yang mungkin memerlukan sumber daya komputasi yang substansial dan berpotensi tidak tersedia.

Karena keterbatasan ini, sebagian besar server prediksi mengorbankan akurasi untuk kecepatan dengan mengandalkan satu, atau sejumlah kecil, jaringan asosiasi fungsional komposit yang telah dihitung sebelumnya dan menggunakan heuristik sederhana untuk menilai gen berdasarkan daftar benih yang diberikan (misalnya, lihat [ 13, 14, 19]). Sementara heuristik penilaian cukup cepat untuk memberikan prediksi online untuk daftar benih arbitrer, kami akan menunjukkan bahwa prediksi mereka jauh kurang akurat daripada metode yang lebih maju. Selanjutnya, dengan menggunakan jaringan pra-komputasi tunggal, server ini tidak mengambil keuntungan dari fakta bahwa sumber data yang berbeda lebih relevan untuk kategori fungsi gen yang berbeda [2, 9] dan tidak dapat diperluas ke sumber data baru atau yang disediakan pengguna. .

Di sini kami menunjukkan bahwa tidak perlu menyerahkan akurasi maupun fleksibilitas saat membangun server prediksi dengan menunjukkan bahwa GeneMANIA (Algoritma Integrasi Jaringan Asosiasi Berganda) dapat, dalam hitungan detik, menghasilkan prediksi seluruh genom yang mencapai akurasi canggih pada daftar gen benih sewenang-wenang tanpa bergantung pada jaringan asosiasi yang ditentukan sebelumnya. Kami telah mencapai tujuan ini melalui serangkaian kemajuan algoritmik dan teknis yang telah kami rangkum dalam paket perangkat lunak baru. Dengan GeneMANIA, tidak perlu lagi menyimpan daftar dalam silikon prediksi fungsi gen karena dapat dihitung ulang sesuai kebutuhan.


Hasil

Probabilitas transisi keadaan di sepanjang cabang

Model probabilistik dapat digunakan untuk menyimpulkan apakah telah terjadi perubahan ukuran famili gen antara nenek moyang dan keturunan di sepanjang setiap cabang pada pohon spesies. Ini dilakukan dengan mengganti parameter laju yang mengoptimalkan fungsi kemungkinan dalam matriks probabilitas transisi P(T) (lihat bagian Metode untuk definisi), di mana T adalah panjang cabang. Dengan menggunakan probabilitas transisi ini, probabilitas setiap keadaan di LUCA dapat dihitung. Masing-masing model yang dibahas dalam karya ini menunjukkan bahwa, bahkan ketika kehilangan gen dan perolehan gen terjadi dalam evolusi (entri off-diagonal dalam matriks probabilitas transisi), hasil yang paling mungkin di sepanjang cabang mana pun adalah bahwa ukuran keluarga gen tetap sama. , dengan probabilitas lebih tinggi untuk mempertahankan ketidakhadiran gen daripada mempertahankan keberadaan gen. Sifat umum lainnya dari semua model (dengan pengecualian model (B1), yang dibatasi untuk memiliki tingkat perolehan gen dan kehilangan gen yang sama) adalah bahwa kehilangan gen biasanya dua hingga empat kali lebih mungkin daripada perolehan gen. Matriks probabilitas transisi median (dengan probabilitas tertinggi di setiap baris yang disorot) untuk cabang dengan panjang 0,35 (median dari panjang cabang yang diamati di pohon) adalah

Selain itu, probabilitas transisi model (M1) dan (M2) menunjukkan bahwa keadaan beberapa paralog dalam lebih rentan terhadap perubahan di sepanjang cabang daripada keadaan gen salinan tunggal. Baris kedua dari matriks probabilitas ini menunjukkan bahwa memperoleh gen baru lebih kecil kemungkinannya daripada menduplikasi gen yang ada dalam spesies, dan bahwa hilangnya gen yang ada lebih mungkin daripada duplikasinya. Perbedaan utama antara model (M1) dan (M2) adalah dalam probabilitas transisi kehilangan gen ketika ada banyak salinan pada leluhur. Dalam model (M2), kemungkinan kecil bahwa suatu gen kehilangan semua salinannya di sepanjang cabang, sedangkan dalam (M1) kemungkinan kehilangan semua salinan gen di sepanjang cabang hampir sama dengan kemungkinan mempertahankan banyak salinan dari gen tersebut. gen.

Probabilitas leluhur

Untuk setiap model yang dibahas di bagian sebelumnya, probabilitas bahwa setiap COG muncul di LUCA dapat disimpulkan. Satu set gen LUCA-MLx terdiri dari gen yang probabilitas leluhurnya paling tidak x dalam model pilihan mereka di antara (M1) dan (M2). Tabel 1 (kolom II) menunjukkan jumlah set gen yang disimpulkan sebagai leluhur di bawah nilai yang berbeda dari x dari 0,5 hingga 1. Kami membuat daftar COG leluhur menggunakan probabilitas 0,7 setiap kali tingkat probabilitas tidak dinyatakan, kami merujuk ke LUCA-ML 0,7 sebagai LUCA-ML.

LUCA-ML kami tidak sama dengan LUCA1.0 yang direkonstruksi pada [2], kemungkinan besar karena dua nenek moyang disimpulkan menggunakan metode yang berbeda, yang terlebih lagi diterapkan pada set spesies dan COG yang berbeda. LUCA-ML 0,7 dan LUCA-ML 0,6 masing-masing berbagi, sekitar 57% dan 50% gen mereka dengan LUCA 1.0, dan lebih dari 65% LUCA 1.0 disertakan dalam setiap set gen leluhur ML kami.

Konten gen LUCA-ML 0.7 dan LUCA-1.0

Proporsi semua COG yang dinilai sebagai leluhur serupa di dua leluhur yang direkonstruksi - 23% dari total dalam kasus LUCA 1.0 (517 COG) dibandingkan dengan 26% (597 COG) di LUCA-ML 0.7. Di sisi lain, identitas COG di kedua set sangat berbeda, dengan hanya 346 COG yang ditemukan di kedua set.

Gambar 1 menunjukkan distribusi set input COG serta set leluhur yang disimpulkan dengan jumlah genom di mana mereka ditemukan di bawah model yang berbeda. Jumlah COG di LUCA 1.0 dan LUCA-ML 0.7 serupa untuk COG yang ditemukan di lebih dari 80 genom, tetapi sangat berbeda untuk model COG langka (M2) dan pendekatan ML lainnya cenderung menempatkan proporsi COG yang terdistribusi jarang ke dalam LUKA.

Distribusi semua COG di bawah model B2 dan M2, serta COG leluhur tinggi (LUCA-ML dan LUCA1.0), berdasarkan jumlah genom yang ada.

Klasifikasi tingkat tinggi dari fungsi molekuler yang diketahui dan diprediksi dari COG leluhur ditunjukkan pada Tabel 2.

Gen yang dilestarikan dengan karakter buruk (kategori R dan S) lebih sering terjadi di antara COG yang dinilai sebagai leluhur hanya dengan pendekatan ML, yang berkorelasi dengan proporsi COG langka yang lebih tinggi dalam kategori ini dan relatif mendukung COG ini dengan pendekatan ML. COG "leluhur tinggi" dari kategori R dan S ini menyumbang sekitar 16% dari semua COG dalam kelompok fungsional ini, dan lebih banyak wawasan tentang fungsinya akan berguna untuk pemahaman yang lebih baik tentang biokimia leluhur.

Ekstrem lain dalam "keturunan" diwakili oleh COG yang termasuk dalam kategori J (Mesin Penerjemahan dan Biogenesis Ribosom), serta kategori E (Biosintesis Asam Amino). Sebagian besar dari semua COG dalam dua kategori ini diprediksi menjadi nenek moyang dengan semua pendekatan, yang sebagian besar dapat dikaitkan dengan distribusi luas mereka dalam genom.

Gambar 2 menunjukkan distribusi semua COG berdasarkan probabilitas menjadi leluhur di bawah setiap model, serta jumlah COG leluhur di bawah batas probabilitas yang berbeda. Probabilitas terdistribusi dengan baik di seluruh rentang, tetapi sebagian besar dari mereka (setidaknya 15%) berkerumun di sekitar 0,5. Ini adalah "zona abu-abu" leluhur, yang dapat diselesaikan dengan analisis masa depan, beberapa arahnya dibahas di bawah ini.

Distribusi probabilitas leluhur COG di bawah berbagai model. Panel pertama menunjukkan frekuensi COG dengan probabilitas kejadian yang berbeda di LUCA, dan panel kedua menunjukkan jumlah COG di atas ambang batas probabilitas yang berbeda.


Jarak Pohon Filogenetik

Abstrak

Pohon filogenetik adalah objek matematika yang merangkum hubungan nenek moyang yang paling baru antara satu set organisme tertentu. Seringkali ada kebutuhan untuk mengukur tingkat kesamaan atau ketidaksesuaian antara dua pohon yang diusulkan. Misalnya, seseorang mungkin tertarik untuk mengetahui apakah pohon filogenetik yang direkonstruksi dari dua barisan urutan yang berbeda benar-benar berbeda, atau jika perbedaannya sangat kecil sehingga hanya disebabkan oleh variasi statistik. Dalam artikel ini kami merangkum beberapa metode yang paling dikenal luas untuk menentukan jarak antara pohon filogenetik, dan memberikan contoh perhitungan jika memungkinkan.


Berbagi seluruh genom HeLa

Pada Maret 2013, sekelompok peneliti di Laboratorium Biologi Molekuler Eropa mengurutkan genom sel HeLa. Dengan kemajuan dekade terakhir dalam teknik pengurutan, pengurutan dilakukan dengan mudah. Itu juga dilakukan dengan niat baik.

Sel kanker, yang pertama kali diambil dari benjolan yang diangkat dari leher rahim Henrietta Lacks beberapa bulan sebelum kematiannya akibat kanker serviks pada tahun 1951, adalah garis sel yang paling banyak digunakan di dunia. Sel-selnya kuat dan telah membantu mengembangkan banyak pengobatan antitumor dan virus, termasuk vaksin polio. Namun, data genom yang diterbitkan pada tahun 2013, yang dapat digunakan untuk mengumpulkan informasi medis sensitif tentang keturunan Lacks, dibagikan tanpa sepengetahuan mereka.

&ldquoIni seperti, &lsquoIni dia lagi, terlibat dalam penelitian tanpa izin atau persetujuan kami,&rsquo&rdquo kata David Lacks Jr. Dia adalah cucu Henrietta Lacks, yang adalah seorang petani tembakau hitam dan ibu dari lima anak. Ketika Henrietta Lacks pergi mencari perhatian medis di Rumah Sakit Johns Hopkins untuk massa kecil di leher rahimnya pada tahun 1951, ginekolog yang bertugas, Howard Jones, melakukan biopsi sel tumor. Setelah diagnosis, sel-sel tersebut menuju ke George Gey, kepala penelitian kultur jaringan di Johns Hopkins, melalui seorang rekan.

Henrietta Lacks tidak dimintai izin untuk membagi selnya dengan cara ini, meskipun mengambil sampel dari pasien tanpa izin adalah praktik standar pada saat itu. Sementara sel-selnya, yang membelah tanpa batas pada tingkat yang belum pernah terjadi sebelumnya, terus merevolusi penelitian medis, keluarga Lacks tetap dalam kegelapan sampai para peneliti datang untuk mengambil sampel darah dari anggota keluarga pada tahun 1970-an. Sel HeLa menghasilkan keuntungan miliaran dolar untuk industri biomedis, sementara keluarga Lacks tidak mampu membayar perawatan medis dan asuransi kesehatan.

Ketidakadilan ini menjadi perhatian dunia dengan buku terlaris Rebecca Skloot 2010, &ldquoThe Immortal Life of Henrietta Lacks.&rdquo Sebelum menerbitkan buku tersebut, Skloot mendirikan Henrietta Lacks Foundation, yang sekarang telah memberikan lebih dari 50 hibah untuk pendidikan, kesehatan- perawatan dan biaya darurat yang telah disetujui sebelumnya untuk sejumlah anggota keluarga dekat Kekurangan.

Ketika genom itu dimasukkan ke dalam Arsip Nukleotida Eropa pada awal 2013, &ldquotidak ada kebijakan yang mengatakan bahwa data tidak dapat tersedia,&rdquo kata Dina Paltoo dari National Institutes of Health. Paltoo adalah direktur divisi kebijakan berbagi data ilmiah di kantor kebijakan sains NIH&rsquos. &ldquoIni adalah praktik standar dalam komunitas genomik, dan banyak jurnal mensyaratkan bahwa data telah dibagikan sebelum mereka&rsquo akan mempublikasikan temuannya.&rdquo Sebuah studi tentang genom dan epigenom sel HeLa oleh para peneliti di University of Washington juga dilakukan akan diterbitkan di Nature.

Setelah informasi genomik dimasukkan ke dalam database publik oleh para peneliti Jerman di EMBL, Skloot menerbitkan op-ed di New York Times yang mengumpulkan banyak perhatian. Direktur NIH Francis S. Collins bertemu dengan keluarga Lacks untuk membahas pilihan mereka.

&ldquoKita dapat membiarkannya begitu saja, untuk dilihat seluruh dunia, tetapi masalahnya adalah ketika Anda mengurutkan genom Henrietta Lacks, Anda juga menyertakan sifat-sifat keluarga genom kita juga,&rdquo kata Lacks. &ldquoKami tidak tahu apa yang akan diketahui 20 tahun dari sekarang dengan urutan yang tersedia untuk digunakan siapa saja dan bagaimana hal itu akan berdampak pada kami.&rdquo

Mencapai konsensus

Keluarga tersebut sampai pada kesimpulan bahwa cara terbaik untuk menangani urutan genom HeLa adalah meminta para peneliti untuk mengaksesnya. &ldquoKami tidak ingin itu terputus, karena keluarga dengan suara bulat bangga dengan apa yang telah dibantu sel-sel capai,&rdquo kata Lacks.

Collins dan Kathy Hudson, yang saat itu menjabat sebagai wakil direktur NIH&rsquos untuk sains, penjangkauan, dan kebijakan, membentuk kelompok kerja yang terdiri dari ahli bioetika, ahli genetika, dokter, dan anggota keluarga Lacks. Menurut ketentuan perjanjian pada Agustus 2013 yang dicapai keluarga dengan NIH, setiap peneliti yang berencana menggunakan data harus memenuhi kriteria tertentu: Data hanya boleh digunakan untuk tujuan penelitian biomedis, pemohon harus mengungkapkan rencana komersial apa pun yang mereka akan memiliki datanya, dan para pemohon akan setuju untuk mengakui keluarga dan kontribusi sel dalam publikasi dan presentasi apa pun. Studi dari kelompok Universitas Washington, yang telah ditunda, muncul dalam edisi Nature yang terbit bulan itu dengan diskusi tentang kesepakatan oleh Hudson dan Collins.

Kelompok Kerja Akses Data Genom HeLa dan termasuk Lacks dan Veronica Spencer, cicit dari Henrietta Lacks. Grup mengevaluasi permintaan untuk mengakses data ini dan kemudian mengirimkan temuannya ke komite penasihat kepada direktur NIH. Komite itu kemudian membuat rekomendasi kepada Collins, yang membuat keputusan akhir.

&ldquoDirektur NIH juga telah menghubungi jurnal dan telah mendorong mereka untuk memastikan bahwa para peneliti yang mengejar publikasi mematuhi perjanjian penggunaan data genom HeLa dan juga mengakui perjanjian dan keluarga dengan tepat,&rdquo kata Paltoo.

David Lacks Jr. (kanan) dan sepupunya Jeri Lacks&ndashMengapa sering berbicara di depan umum tentang pengalaman keluarga Lacks dengan saluran seluler HeLa. FOTO DISEDIAKAN OLEH JERI LACKS-WHYE

Buah dari database

Basis data genotipe dan fenotipe NIH&rsquos, atau dbGaP, saat ini berisi lima set data yang terkait dengan genom HeLa yang diurutkan. Sejauh ini, Collins telah menyetujui 47 permintaan dari peneliti dari 20 negara berbeda. Satu-satunya permintaan yang ditolak adalah untuk grup yang tidak ingin membagikan temuannya. Dua makalah yang menyebabkan kegemparan itu diterbitkan setelah disetujui oleh kelompok.

Salah satu penyelidik yang disetujui adalah Andrew Adey di Oregon Health & amp Science University. Sebagai mahasiswa pascasarjana, Adey adalah penulis pertama makalah genom Universitas Washington yang dipimpin oleh Jay Shendure.

Di awal karirnya, Adey membantu menyelidiki apa yang membuat sel HeLa memiliki kemampuan untuk membelah dengan cara yang begitu agresif. Kemampuan tersebut muncul dari integrasi DNA dari virus papiloma manusia ke dalam genom sel di Henrietta Lacks yang menyebabkan karsinoma serviksnya.

&ldquoIntegrasi DNA asing virus yang terjadi dalam genom HeLa terjadi di beberapa subset karsinoma serviks, tetapi dalam kasus ini terjadi dengan cara yang sangat disayangkan,&rdquo kata Adey. &ldquoItu terjadi untuk berintegrasi di lokasi yang mengaktifkan gen kanker, jadi benar-benar badai peristiwa yang terjadi di dalam sel yang mengakibatkan bentuk kanker yang sangat agresif ini dan, pada akhirnya, keabadian sel.&rdquo

Onkogen virus E6 dan E7 hadir pada DNA virus yang disisipkan yang menghambat penekan tumor, seperti p53 yang terkenal. Virus juga memasukkan 30 salinan penambah regulasi di dekat proto-onkogen, MYC, yang dapat menyebabkan pembelahan sel yang tidak diatur saat dibajak. Interaksi ini berkontribusi pada bentuk kanker yang jauh lebih agresif.

Adey dan rekan baru-baru ini mengkarakterisasi stabilitas dan heterogenitas sel HeLa menggunakan teknik yang disebut pengindeksan kombinatorial. Teknik ini memungkinkan mereka untuk melakukan pengurutan seluruh genom sel tunggal pada throughput yang lebih tinggi daripada yang sebelumnya dimungkinkan dengan membuat kode batang sel individu.

Para peneliti pertama kali menerapkan teknik tersebut pada sel kanker dari adenokarsinoma lanjut dan mampu mengidentifikasi subpopulasi di dalam tumor. Dalam penggunaan di masa mendatang, &ldquowe&rsquo akan dapat mengambil sampel subpopulasi dengan kelimpahan sangat rendah,&rdquo kata Adey. &ldquoKami kemudian dapat menyimpulkan dan mendeteksi beberapa aspek yang dapat ditargetkan dengan cara yang berbeda dari tumor lainnya.&rdquo

Selain semua obat penyelamat nyawa yang dikembangkan dengan sel HeLa, para peneliti yang mencoba mengembangkan teknologi medis baru dapat menggunakan genom HeLa sebagai alat kalibrasi yang kuat.

&ldquoKami&rsquo mengembangkan teknologi dan alat baru untuk melihat kanker serta aspek lain atau penyakit lain,&rdquo kata Adey. &ldquoSaat kami mengembangkan alat ini, kami ingin mengujinya pada sesuatu yang kami tahu jawabannya, jadi itulah tujuan kami menggunakan HeLa. Kami tahu persis seperti apa tampilannya.&rdquo

Akses terkontrol ke data genomik HeLa juga telah menghasilkan pengembangan metode analisis baru oleh kelompok Shendure. Metode ini melibatkan perancah skala kromosom untuk merakit genom yang sangat berdekatan dari bacaan singkat. Perakitan ulang dimungkinkan oleh algoritme yang mengelompokkan fragmen genom berdasarkan set data interaksi kromatin, yang berguna untuk menetapkan, memesan, dan mengorientasikan urutan genom ke kromosom. Para peneliti pertama kali menjelaskan metode tersebut, yang juga telah dipatenkan oleh Shendure, dalam sebuah makalah di jurnal Nature Biotechnology pada November 2013. Dalam makalah tersebut, para peneliti menggunakan genom HeLa sebagai salah satu cara untuk menguji metode untuk menemukan penataan ulang antarkromosom di genom kanker.

Selain itu, wawasan baru tentang pengaruh organisasi spasial genom pada transkripsi, yang memiliki implikasi signifikan terhadap penyimpangan yang terjadi pada penyakit, telah dibuat oleh kelompok Yijuan Ruan di Pusat Kanker Laboratorium Jackson di Bar Harbor, Maine.

Sementara para peneliti menggunakan sel HeLa untuk lebih memahami aspek biologi sel yang tak terhitung jumlahnya, Lacks dan Jeri Lacks&ndashWhye, salah satu cucu Henrietta Lacks&rsquo lainnya, telah melakukan perjalanan untuk berbicara kepada audiens hingga 4.000 orang tentang keluarga mereka dan masalah yang lebih luas yang diangkat dalam buku Skloot&rsquos.

&ldquoMeskipun kami banyak berbicara tentang buku itu, kami&rsquo juga mulai berbicara lebih banyak tentang isu-isu yang tercakup dalam buku tersebut, seperti kesehatan, kemakmuran, dan pengobatan presisi,&rdquo kata Lacks.

&ldquoSetiap orang akan sakit pada suatu saat atau dipengaruhi oleh seseorang yang sakit,&rdquo dia menambahkan. &ldquoKami ingin membantu para ilmuwan menemukan obatnya.&rdquo

Gambar atas, yang merupakan gambar yang sama yang ditampilkan pada sampul bulan ini, adalah gambar fluoresensi multifoton dari sel HeLa. Mikrotubulus dalam magenta DNA dalam cyan. Gambar adalah milik Tom Derrinck di National Center for Microscopy and Imaging Research.


1. PERKENALAN

Percampuran antara populasi dan hibridisasi antar spesies sering terjadi dan pohon bercabang seringkali tidak cukup untuk menangkap sejarah evolusi mereka (Green et al., 2010 Kozak et al., 2018 Malinsky et al., 2018 Patterson et al., 2012 Tung & Barreiro, 2017). Patterson's D statistik, pertama kali digunakan untuk mendeteksi introgresi antara manusia modern dan populasi Neanderthal (Durand et al., 2011 Green et al., 2010 ), telah diterapkan secara luas di berbagai taksa (Fontaine et al., 2015 Kozak et al., 2018 Malinsky dkk., 2018 Tung & Barreiro, 2017 vonHoldt dkk., 2016 ). NS D statistik dan perkiraan terkait fraksi campuran F, disebut sebagai F4-rasio (Patterson et al., 2012), sederhana untuk dihitung dan sangat cocok untuk mengambil keuntungan dari set data skala genom, sementara kuat di bawah sebagian besar skenario demografis (Durand et al., 2011).

NS D dan F4-statistik rasio termasuk dalam kelas metode yang didasarkan pada studi korelasi frekuensi alel lintas populasi dan dikembangkan dalam kerangka genetik populasi (Patterson et al., 2012). Namun, metode tersebut dapat berhasil diterapkan untuk mempelajari tentang hibridisasi dan introgresi dalam kelompok spesies yang berkerabat dekat, selama asumsi genetik populasi umum berlaku – yaitu bahwa (a) spesies tersebut memiliki sejumlah besar variasi genetik karena nenek moyang yang sama dan tidak lengkap penyortiran garis keturunan (b) mutasi berulang dan kembali di situs yang sama dapat diabaikan dan (c) tingkat substitusi seragam di seluruh spesies (Patterson et al., 2012 Pease & Hahn, 2015 ).

Dengan tersedianya lebih banyak data genom, ada kebutuhan untuk menangani kumpulan data dengan puluhan atau ratusan taksa. Menerapkan D dan F4Statistik rasio memiliki keunggulan efisiensi komputasi dan sangat kuat bahkan ketika menggunakan seluruh data genom dari hanya satu individu per populasi (Green et al., 2010). Di sisi lain, karena setiap perhitungan D dan F berlaku untuk empat populasi atau taksa, jumlah perhitungan/kuartet tumbuh pesat dengan ukuran kumpulan data. Jumlah kuartet adalah , yaitu n pilih 4 dimana n adalah jumlah populasi. Ini dapat menghadirkan tantangan dalam hal peningkatan persyaratan komputasi. Selain itu, statistik pengujian yang dihasilkan dikorelasikan ketika kuartet berbagi cabang (internal) dalam populasi keseluruhan atau pohon spesies, yang dapat membuat sistem dari semua kemungkinan empat pengujian takson di seluruh kumpulan data sulit untuk ditafsirkan.

Karena menunjukkan dengan tepat peristiwa introgresi tertentu dalam kumpulan data dengan puluhan atau ratusan populasi atau spesies tetap menjadi tantangan, F-cabang atau FB(C) metrik diperkenalkan di Malinsky et al. ( 2018 ) untuk mengurai korelasi F4hasil -rasio dan menetapkan bukti aliran gen untuk spesifik, mungkin internal, cabang pada filogeni. NS F-branch metrik dibangun di atas dan memformalkan argumen verbal yang digunakan oleh Martin et al. (2013) untuk menetapkan aliran gen ke cabang internal tertentu pada filogeni Heliconius kupu-kupu. Dengan demikian, F-statistik cabang dapat dilihat sebagai bantuan untuk merumuskan hipotesis aliran gen dalam kumpulan data dari banyak populasi atau spesies.

Patterson's D dan statistik terkait juga telah digunakan untuk mengidentifikasi lokus yang terintrogresi dengan menggeser pemindaian jendela di sepanjang genom (Fontaine et al., 2015 Heliconius Genome Consortium, 2012 ), atau dengan menghitung statistik ini untuk wilayah genom pendek tertentu. Karena D statistik itu sendiri memiliki varians yang besar ketika diterapkan pada jendela genom kecil dan karena merupakan penduga yang buruk dari jumlah introgresi (Martin et al., 2015), statistik tambahan yang terkait dengan F4-rasio telah dirancang khusus untuk menyelidiki tanda-tanda introgresi di jendela genomik di sepanjang kromosom. Statistik ini termasuk: FD (Martin et al., 2015), ekstensinya FdM (Malinsky et al., 2015), dan fraksi jarak df (Pfeifer & Kapan, 2019 ).

Program untuk menghitung Patterson's D dan statistik terkait termasuk admixtools (Patterson et al., 2012 ), hyde (Blischak et al., 2018 ), angsd (Paul et al., 2011 Soraggi et al., 2018), popgenome (Pfeifer & Kapan, 2019 Pfeifer et al. ., 2014 ), dan comp-d (Mussmann et al., 2020). Namun, sejumlah faktor memerlukan pengenalan perangkat lunak baru. First, most of the existing programs cannot handle the variant call format (VCF) (Danecek et al., 2011 ), the standard file format for storing genetic polymorphism data produced by variant callers such as samtools (Li, 2011 ) and gatk (DePristo et al., 2011 ). Second, the computational requirements of these programs in terms of either run time or memory (or both) make comprehensive analyses of data sets with tens or hundreds of populations or species either difficult or infeasible. Third, the programs implement only a subset of the statistics discussed above, and there are some statistics, namely FdM, dan F-branch, which have not yet been implemented in any publicly available software package.

To address these issues, we introduce the Dsuite software package. Dsuite brings the calculation of different related statistics together into one software package, combining genome-wide and sliding window analyses, and downstream analyses aiding their interpretation (Table 1). Dsuite has a user-friendly straightforward workflow and uses the standard VCF format, thus generally avoiding the need for format conversions or data duplication. Moreover, Dsuite is computationally more efficient than other software in the core task in calculating the D statistics, making it more practical for analysing large genome-wide data sets with tens or even hundreds of populations or species. Finally, Dsuite implements the calculation of the FdM dan F-branch statistics for the first time in publicly available software. While researchers can implement these and other statistics in their own custom scripts, the inclusion of the whole package of statistics in Dsuite facilitates their use and reproducibility of results.

Perangkat lunak VCF input Genome-wide tests/statistics Sliding window statistics
D F4-ratio F-branch D F D F dM df
admixtools
angsd
comp-d
hyde
popgenome
dsuite

How much of human height is genetic and how much is due to nutrition?

This question can be rephrased as: "How much variation (difference between individuals) in height is attributable to genetic effects and how much to nutritional effects?" The short answer to this question is that about 60 to 80 percent of the difference in height between individuals is determined by genetic factors, whereas 20 to 40 percent can be attributed to environmental effects, mainly nutrition. This answer is based on estimates of the "heritability" of human height: the proportion of the total variation in height due to genetic factors.

Human height is a quantitative, or metric, trait, i.e., a characteristic that is measured in quantity, and is controlled by multiple genes and environmental factors. Many studies have estimated the heritability of human height. Often, these studies determine heritability by estimating the degree of resemblance between relatives. One can separate genetic effect from environmental effects by correlating genetic similarity between relatives (twin, siblings, parents and offspring) with their similarity in height. To accurately measure how genetically similar relatives are, one can measure the number of genetic markers they share. For example, Peter M. Visscher of the Queensland Institute of Medical Research in Australia recently reported that the heritability of height is 80 percent, based on 3,375 pairs of Australian twins and siblings. This estimate is considered to be unbiased, as it was based on a large population of twins and siblings and a broad survey of genetic markers. In the U.S., the heritability of height was estimated as 80 percent for white men. These estimates are well supported by another study of 8,798 pairs of Finnish twins, in which the heritability was 78 percent for men and 75 percent for women. Other studies have shown height heritability among whites to be even higher than 80 percent.

Because different ethnic populations have different genetic backgrounds and live in different environments, however, height heritability can vary from one population to another, and even from men to women. In Asian populations, the heritability of height is much lower than 80 percent. For example, in 2004 Miao-Xin Li of Hunan Normal University in China and his colleagues estimated a height heritability of 65 percent, based on a Chinese population of 385 families. In African populations, height heritability is also lower: 65 percent for the population of western Africa, according to a 1978 study by D. F. Roberts, then at Newcastle University in England, and colleagues. Such diversities in heritability are mainly due to the different genetic background of ethnic groups and the distinct environments (climates, dietary habits and lifestyle) they experience.

Heritability allows us to examine how genetics directly impact an individual's height. For example, a population of white men has a heritability of 80 percent and an average height of 178 centimeters (roughly five feet, 10 inches). If we meet a white man in the street who is 183 cm (six feet) tall, the heritability tells us what fraction of his extra height is caused by genetic variants and what fraction is due to his environment (dietary habit and lifestyle). The man is five centimeters taller than the average. Thus, 80 percent of the extra five centimeters, or four centimeters, is due to genetic variants, whereas one centimeter is due to environmental effects, such as nutrition.

Heritability can also be used to predict an individual's height if the parents' heights are known. For example, say a man 175 cm tall marries a woman 165 cm tall, and both are from a Chinese population with a population mean of 170 cm for men and 160 cm for women. We can predict the height of their children, assuming the heritability is 65 percent for men and 60 percent for women in this population. For a son, the expected height difference from the population mean is: 0.65 x [(175 - 170) + (165 - 160)] / 2, which equals 3.25 cm for a daughter, the difference is 0.6 x [(175 - 170) + (165 - 160)] / 2, which equals 3 cm. Thus, the expected height of a son is 170 + 3.2, or 173.2 cm, and of a daughter 160 + 3, or 163 cm. On the other hand, environmental effects can add 1.75 cm to a son's height: 0.35 x [(175 - 170) + (165 - 160)] / 2, and 2 cm to a daughter's: 0.4 x [(175 - 170) + (165 - 160)] / 2. Of course, these predictions only reflect the mean expected height for each of the two siblings (brothers and sisters) the actual observed height may be different.

From these calculations, we realize the environment (mainly nutrients) can only change about 2 centimeters for a given offspring's height in this Chinese population. Does that mean that no matter what happens in the child's environment, the height can never change more than this? Can special treatment and nutrient supplements increase the height further? Jawabannya iya. The most important nutrient for final height is protein in childhood. Minerals, in particular calcium, and vitamins A and D also influence height. Because of this, malnutrition in childhood is detrimental to height. In general, boys will reach maximum height in their late teens, whereas girls reach their maximum heights around their mid-teens. Thus, adequate nutrition before puberty is crucial for height.


Reviewers' comments

Reviewer 1: Mikhail Gelfand, Department of Bioengineering and Bioinformatics, Moscow State University, and Institute for Information Transmission Problems RAS, Moscow, Russia

The paper addresses an important problem of selecting a good similarity measure for comparing gene expression patterns. It does not provide definitive answers, but demonstrates correct approaches. The main conclusion, "the choice of a proper measure depends on the biological problem at hand" is difficult to argue against. The following comments are mainly of the discussion and editorial nature.

While the basic assumption, that homologous tissues in different organisms should be more similar in the terms of gene expression than tissues in one organism, is reasonable, some caveats are due. For instance, if the tissues in question are very close developmentally, one can easily expect concerted, organism-specific changes in expression. In fact, the papers results demonstrate exactly that.

The rat spleen and thymus are clustered by all measures (Fig. 1). The human spleen and thymus are clustered by some measures, and I think that clustering [(thymus_rat + spleen_rat) + (thymus_human + spleen_human)] should not be counted as an error, as opposed to a version with human spleen being an outlier: [((thymus_rat + spleen_rat) + thymus_human) + spleen_human]. Similarly, I'd assume that both versions [(muscle_human + heart_human) + (muscle_rat + heart_rat)] and [(muscle_human + muscle_rat) + (heart_human + heart_rat)] are biologically relevant, as opposed to [((muscle_human + heart_human) + muscle_rat) + heart_rat)]. Hence, the procedure of counting errors should not be limited to considering pairs of non-clustered homologous tissues, but should tale into account finer topological detail (as well as, maybe, branch length).

Authors' response: We agree with the reviewer that there may be more than one biologically relevant clustering solution, and concerted organism-specific co-expression of genes might cause species-specific tissue cluster. However, we believe that in most cases non-homologous tissues clustering is directly related to tissues sampling and the number of replicates available. Curiously, the pattern [((thymus_rat + spleen_rat) + thymus_human) + spleen_human], was observed with all four distance measures that we tried. Also note that part of our intention was to demonstrate that in the problem of tissue clustering there is no valid reason to dismiss the correlation-based distance, despite the concerns raised in ref. [13] and indeed, correlation-based distance and the Euclidean distances gave the same results in our hands, and even for the binary transformed data the correlation-based distance detected some of the relevant signal.

While this may go beyond the limits of the present study, I think it would be interesting to look into more detail into the cluster trees generated by different measures, and specifically, into what genes contribute most into different clusters, dependent on the expression patterns. At that, one should keep in mind that in each tissue we observe an averaged expression of genes from a mixture of quite different cell types. For instance, clustering of the spleen, thymus and the bone marrow may be related to the blood cells development, while clustering of the spleen, thymus and the pituitary gland may be caused by genes expressed in the gland tissue.

Some hint of analysis is given in the last paragraph of "Distance estimates". The overrepresentation of heart and muscle development genes is not surprising, given the robust clustering of these tissues in all trees. On the other hand, the statement that the Eucledian distance does not provide a functionally meaningful set: one can easily see blood cell development genes there (not surprising given spleen, thymus and bone marrow data) and neurological process (the sources for which is admittedly less clear: could it be the pituitary gland?)

Authors' response: We agree that there is good information in the clusters produced by Euclidean distance, even if there is no single dominant theme there. Note, however, that genes selected using the Euclidean distance tend to be expressed in all tissues at the uniform low level, while genes selected using correlation-based distance tend to be expressed in several orthologous tissues at the much higher level.

Reviewer 2: Eugene Koonin, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health

The paper by Glazko and Mushegian makes the case that different measures of expression divergence (in particular, Euclidean distances and correlation-based distances) are best suited for revealing different trends in the evolution of gene expression. I would like to strongly endorse this work that shows flexibility which is vital for understanding such a complex phenomenon as evolution of gene expression in multicellular organisms. A versatile approach like this gives the only hope of progress in this field and is a welcome contrast to the common attempts to propose one approach claimed to be best for all purposes.

Authors' response: We appreciate the reviewer positive comment. Taking a more familiar example of distances between biological sequences, we know that those can be roughly estimated even without an explicit model of sequence evolution, but it is also known that, as sequences diverge, the error of the estimate becomes more and more significant. Similarly, the ultimate goal in gene expression analysis is to have an evolutionary model for gene expression. Short of that, the divergence between expression profiles can be estimated with appropriate distance measures.

Reviewer 3: Subhajyoti De (nominated by Sarah Teichmann), Computational Biology Program, Memorial Sloan-Kettering Cancer Center

In the paper entitled "Measuring gene expression divergence: the distance to keep", Glazko and Mushegian present a discussion about which distance measure to use in inter-species expression divergence analyses. While the topic is of broad interest, I have some comments

1. How were the transcripts with multiple probes treated? How were the probes that map to multiple genes treated?

Authors' response: Raw data preprocessing step is described in the Method section.

If a gene had multiple transcripts, how did the authors choose the representative transcript?

Authors' response: Affymetrix Human hgu133a and Rat rgu34a arrays do not provide information about multiple transcripts.

Why no between-array normalization was performed for rat samples?

Authors' response: RMA procedure was implemented for both human and rat arrays.

2. The distributions of Euclidean distance and correlation-based distance for pairs of randomly chosen gene pairs differ in their shapes. Can the authors discuss this issue and also how that may affect their comparative analysis and tree-building?

Authors' response: This is exactly the point of the presented paper. Not only the distributions between randomly chosen gene pairs are different, but also the distributions between orthologous gene pairs are different for all distance measures that we tried. As we have shown in the paper, this difference most certainly may have an effect on the analysis, and the kind of effect depends on the type of the analysis, i.e., on the biological question that is asked.

3. In the recent releases of Ensembl, there are about 14,000 one-to-one orthologs. The authors present results based on 3152 genes. It remains to be clear why the dataset analyzed is so small and whether the conclusions made in this paper can be extended to the whole genome dataset.

Authors' response: hgu133a and rgu34a arrays contain 22283 and 8799 probe sets, respectively. After mapping them to unique genes, only 4939 genes for rat were left. The conclusions made in this paper refer to the distance properties and hardly depend on the number of the orthologs studied.

4. In Figure 1 it is not clear how the tree was drawn (e.g. Neighbour joining, Maximum likelihood) and how that method may affect the tree structure. Furthermore, the authors should perform bootstrapping to assess the quality of the trees.

Authors' response: We used average-link clustering for tree inference. As we were interested in how different distance measures affect the tree structure, we applied the same clustering approach to each distance matrix. Different clustering approach may indeed produce trees with different topologies, but we expect that the effect of varying distance measure would be observed in any clustering algorithm. As for the support of the trees, we expect it to be relatively low given the sample size and the amount of replicates, and our focus here is on the qualitative estimate of how different distances perform in the problem of tissues clustering.

5. In Figure 2 the histogram bars corresponding to orthologus and random gene pairs should be provided side-by-side. In its current form, it is hard to interpret how the distributions of orthologus gene-pairs differ from the random pairs.

Authors' response: We think that bar plots with stacked columns demonstrate the difference between these distributions quite clearly.

6. In Figure 3, y-axis label is missing. Why skeletal muscle shows high Euclidian and correlation distance that is significantly above other tissue-types (as seen by boxplot) and the trend is consistent in all the four panels? Is it an array normalization artifact or a biologically meaningful pattern?

Authors' response: We labeled y-axis in Figure 3. The meaning of the pattern observed in Figure 3, we believe, is that genes selected using the Euclidean distance tend to be expressed in all tissues at the uniformly low level (close to the background), while genes selected using correlation-based distance tend to be expressed in several orthologous tissues at a higher level.

1. The Ensembl Release version is not provided.

Authors' response: The release version is now included.

2. GO has many functional categories organized in a hierarchical structure. It is unclear which level of GO hierarchy was used in the current analysis.

Authors' response: The levels were chosen based on the significant P-values provided by the enrichment test, and therefore the categories from different levels of the hierarchy could be reported.

3. Table S1 and S2 carry insufficient detail about the methodology involved and the message they convey. For instance, it is unclear whether the over-represented GO categories in Table S1 arise from analysis on heart tissue? How is the p-value calculated?

Authors' response: We now provide more comprehensive description of Tables S1 and S2 in Additional file 4. We first identified orthologous gene pairs with expression profiles conserved at the 1% significance level, using different distances. For these gene pairs we implemented GO enrichment analysis. Genes identified using correlation-based distance, binary correlation distance, and GA distances shared 15 overrepresented GO categories (Table S1), whereas genes identified using the Euclidean distance were from completely different GO categories (Table S2). This was the lesson learned from the analysis, i.e., that different distances select functionally different conserved orthologous gene pairs. The over-represented GO categories in Table S1 arise from the genes expressed in all tissues and identified as conserved by three different distances. P-values were calculated by hypergeometric test using the GOstat module from Bioconductor.

4. In Figure S3, in each panel, the outliers cross the whisker and also appear to be shifted. Please revise the figure. Also please adjust the y-axis scale in the two bottom panels to make the figures easier to visualize.

Authors' response: In R implementation, whiskers extend to 1.5*IQR but the parameters can be adjusted so that outliers are not displayed at all. The message of Figure S3 is that genes with high entropy are not 'genes with a conserved uniform pattern of expression'.


Procrastination Essential Reads

6 Ways to Combat Procrastination for Adults With ADHD

Why We Procrastinate

In light of the evidence that goal-management ability may be a central underlying problem for both procrastination and impulsivity, executive functions may also be predictive of individual differences in both of these traits, especially at the genetic level (p. 9).

I couldn’t agree more, and I’m confident that findings of future twin studies that include measures of executive function and conscientiousness will take the emphasis off of the risk factor of impulsivity alone in an understanding of the evolutionary etiology of procrastination. In fact, impulsivity can be seen as a failure of executive function, particularly a key function commonly labeled inhibition.

As with all complex behaviors, procrastination does not have a single causal factor such as impulsivity. There are both risk and resilience factors, each of which is partially explained by genetic variation. Of course, this nuanced answer is not such an appealing message for a media headline where we simply want to say “you inherited your procrastination!” We’re eager to read an article that explains our procrastination today as a by-product of human evolutionary history. Doesn’t it feel great to blame it our genes and evolutionary history? It’s only human after all.

Of course procrastination is only human. Saya setuju. I also agree that impulsivity“a bird in the hand”may have paid off for our ancestors leading to a selection for this trait, but so did conscientiousness, that planful, organized approach to life. That’s why we see substantial heritability for this trait as well.

So, before you impulsively (pardon the pun) blame your genes and human evolutionary history for your procrastination and find yet another excuse for justifying needless, self-defeating delay, take a moment to put these new truth claims in the context of your other traits and abilities that show substantial genetic contributions. And, perhaps most importantly, remember that the genetic contributions amount to half of the variability in these traits. The rest is that “nature via nurture” dance where environment makes a great deal of difference. How will you nurture your goal-management ability and better inhibit that only too human desire to impulsively give in to feel good now?

Gustavson, D., Miyake, A., Hewitt, J., & Friedman, N. (2014). Genetic relations among procrastination, impulsivity, and goal-management ability: Implications for the evolutionary origin of procrastination. Ilmu Psikologi. DOI: 10.1177/0956797614526260


Tonton videonya: MATERI GENETIKA GEN dan DNA (November 2022).