Informasi

Evolusi dan jumlah kromosom yang berbeda? (bukan ahli biologi)

Evolusi dan jumlah kromosom yang berbeda? (bukan ahli biologi)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Saya mengerti bahwa suatu spesies menjadi berbeda secara perlahan dan terus menerus. Namun, jumlah kromosom yang berbeda mengganggu saya. Simpanse, misalnya, memiliki 48 kromosom sedangkan manusia memiliki 46.

Saya memiliki beberapa tebakan yang sama sekali tidak memuaskan saya:

  1. Spesiesnya tidak jauh berbeda, meskipun jumlah kromosomnya berbeda, dan mampu berkembang biak. Keturunannya entah bagaimana sehat dan juga mampu berkembang biak. Tapi bukankah itu membuat keturunannya mandul?

  2. Kemungkinan lainnya adalah, pada suatu saat banyak keturunan dalam suatu populasi yang terbentuk dengan, katakanlah, 46 kromosom dan pembiakan terjadi di antara mereka. Meskipun kedengarannya tidak mungkin bagi saya, apa sebenarnya peluang itu?

Dapatkah seseorang memberikan wawasan kepada non-biolog?


Spesiasi tidak terjadi dari satu generasi ke generasi lainnya, itu adalah proses yang lambat dan berkelanjutan, dan untuk setiap perubahan yang disimpan oleh seleksi alam, ada jutaan perubahan yang mengakibatkan fenotipe kurang fungsional dan terseleksi secara negatif, dan jutaan lainnya. perubahan yang mematikan sehingga segera dibatalkan (misalnya mutasi yang menyebabkan embrio mati bahkan sebelum buah atau hewan dapat berkembang). Jadi mungkin saja banyak perubahan jumlah kromosom terjadi pada banyak organisme, tetapi mereka tidak akan pernah stabil dalam populasi mereka. Di sisi lain, beberapa perubahan numerik (dan semua proses genetik yang mengikuti perubahan apa pun) dapat menghasilkan kecocokan yang baik, dan individu bertahan, membangun, dan bereproduksi. Tetapi perlu diingat bahwa itu adalah proses yang lambat dan berkelanjutan.

Secara teoritis, jika di antara Simpanse, banyak keturunan yang dihasilkan dengan 46 bukannya 48 kromosom:

  • Dalam skenario teoretis: Mereka hanya dapat bereproduksi di antara mereka sendiri (individu berkromosom 46) dan, seiring waktu, mengumpulkan beberapa perbedaan dalam kaitannya dengan simpanse berkromosom 48, dan mereka akan dinamai sebagai spesies lain.

  • Dalam skenario teoretis: Dalam beberapa kondisi, mereka bahkan mungkin dapat bereproduksi dengan simpanse berkromosom 48 (misalnya jika perubahan numerik ini dihasilkan dari pembelahan satu kromosom, dan ketika kedua gamet bertemu, dua setengah kromosom dari satu pasangan induk dengan seluruh kromosom yang lain… Itu tidak mungkin terjadi pada hewan, tetapi banyak terjadi pada tumbuhan)

  • Jika Anda bertanya apakah simpanse berkromosom 46 akan kawin silang dengan manusia… yah, saya yakin mereka telah mengumpulkan terlalu banyak perbedaan dalam genotipe mereka dan dengan demikian tidak akan kompatibel bahkan jika mereka memiliki jumlah kromosom yang sama. Kebetulan memiliki jumlah yang sama bukanlah faktor terpenting yang memungkinkan atau mencegah spesies untuk kawin silang. Ada banyak hambatan untuk hibridisasi, mis. kurangnya pengenalan biokimia antara telur dan sperma yang mengakibatkan tidak ada pembentukan embrio ... dalam kasus embrio yang terbentuk, mungkin tidak berkembang, mungkin berkembang buruk, atau mungkin berkembang tetapi keturunannya keluar dikompromikan dan hidup segera. Contoh lain bahwa jumlah kromosom tidak mencegah kawin silang adalah bagal, yang merupakan keturunan kuda betina (64 kromosom) dengan keledai jantan (62 kromosom). Itu karena meskipun memiliki jumlah kromosom yang berbeda, mereka masih cukup mirip dalam perspektif genetik.

Semua yang dikatakan, kemungkinan Simpanse akan kehilangan dua kromosom, menetap dalam populasi dan bereproduksi dengan manusia benar-benar sangat rendah… Saya akan mengatakan itu tidak mungkin. Tetapi fenomena serupa mungkin terjadi dan bahkan cukup umum pada tumbuhan (agar Anda tahu bahwa itu ada)

Jika Anda ingin mempelajari lebih lanjut tentang perubahan jumlah kromosom, saya sarankan tautan ini: https://www.ncbi.nlm.nih.gov/books/NBK21229/

(Analisis Genetika Modern. Griffiths AJF, Gelbart WM, Miller JH, dkk. New York: W. H. Freeman; 1999.)


Evolusi: Dua rute ke tujuan yang sama

Lalat buah telah menemukan setidaknya dua solusi untuk masalah penyortiran kromosom seks mereka: masalah hidup dan mati.

Penentuan jenis kelamin pada hewan sering tergantung pada pemisahan kromosom tertentu yang tidak merata. Sel wanita umumnya memiliki dua kromosom X, sedangkan sel pria mengandung satu kromosom X dan satu kromosom Y. Yang terakhir, yang diwarisi dari induk jantan, memiliki gen yang jauh lebih sedikit daripada X. Pada lalat buah Drosophila, sel laki-laki membuat fakta bahwa mereka hanya memiliki satu kromosom X dengan meningkatkan tingkat ekspresi semua gennya dengan faktor 2. Fenomena ini, yang dikenal sebagai kompensasi dosis, mengharuskan kromosom X pada laki-laki menjadi diatur secara berbeda dari yang lain. Sebuah tim ahli biologi molekuler di Ludwig-Maximilians-Universitaet (LMU) di Munichs Biomedical Center yang dipimpin oleh Profesor Peter Becker kini telah menunjukkan bahwa, selama 40 juta tahun, anggota genus Drosophila telah menemukan setidaknya dua cara berbeda untuk membuat perbedaan penting ini.

"Mengingat pentingnya kompensasi dosis, orang mungkin berharap bahwa prinsip-prinsip di balik pengenalan spesifik kromosom X pada pria akan sangat dipertahankan," kata Becker. "Dengan kata lain, prosesnya pada dasarnya harus bekerja dengan cara yang sama di semua Drosophila jenis. Namun, ketika kami membandingkan kedua spesies Drosophila melanogaster dan Drosophila virilis, kami menemukan, yang mengejutkan kami, bahwa mereka menggunakan mekanisme yang berbeda untuk tujuan ini." Secara signifikan, komponen utama yang terlibat dalam kompensasi dosis -- protein MSL2 dan CLAMP, bersama dengan RNA roX non-coding -- ditemukan pada kedua spesies Jadi nenek moyang terakhir mereka mungkin memiliki gen yang mengkode produk ini.

Kedua spesies menyimpang sekitar 40 juta tahun yang lalu, dan sejak itu mereka berevolusi secara paralel. Studi baru menunjukkan bahwa, selama periode ini, mediator kompensasi dosis dan situs pengikatannya pada kromosom X telah berevolusi dengan cara yang berbeda. Akibatnya, pengaruh relatif dari, dan interaksi antara, komponen telah berubah. Antara lain dalam D. melanogaster jumlah salinan sekuens DNA tertentu pada kromosom X telah meningkat. Secara paralel, domain pengikatan DNA dari protein MSL2 telah memperoleh kemampuan untuk mengenali urutan ini, dan mereka sekarang memainkan peran penting dalam pengenalan kromosom X pada spesies ini.

Di dalam D. virilis, di sisi lain, urutan ini belum diperkuat. Oleh karena itu, pengenalan mereka oleh MSL2 tergantung pada interaksinya dengan protein CLAMP jauh lebih besar daripada dalam kasus D. melanogaster -- meskipun protein CLAMP juga dapat mengikat banyak sekuens pada kromosom lain. "Kami berasumsi bahwa RNA roX non-coding menghambat pengikatan MSL2 di situs ini," kata Becker. Oleh karena itu penelitian ini telah menemukan peran baru untuk RNA ini. Sampai sekarang, para peneliti berasumsi bahwa roX berperan bukan pada tingkat pengenalan urutan, tetapi pada tahap selanjutnya dalam proses kompensasi dosis.

Temuan ini memiliki implikasi evolusioner yang menarik. "Ketika kromosom seks terus terdiversifikasi, munculnya solusi alternatif tetapi sama efektifnya untuk masalah keseimbangan aktivitas genom menunjukkan bahwa evolusi bukanlah proses deterministik," Becker menunjukkan.


Euploidi: Arti dan Jenis | Sel biologi

Euploldy adalah adanya nomor kromosom yang merupakan kelipatan dari set kromosom dasar. Suatu organisme dengan nomor kromosom 7 dasar, mungkin memiliki euploid dengan nomor kromosom 7, 14, 21, 28, 35, 42. Euploid lebih lanjut dari berbagai jenis – monoploid, diploid dan poliploid.

Pada monoploid terdapat satu set genom, pada diploid terdapat dua set genom dan pada poliploid terdapat lebih dari dua set genom (Tabel 11.2).

Simbol nomor kromosom:

2n = Jumlah kromosom somatik dari spesies diploid atau poliploid.

n = Jumlah kromosom gamet spesies diploid atau poliploid.

X = Nomor kromosom dasar atau nomor genom.

Pada spesies diploid dengan jumlah kromosom 2n = 14, n = 7 serta x = 7.

Tetapi pada spesies poliploid (heksaploid) dengan jumlah kromosom 2n = 6x = 42, n = 21 tetapi X = 7.

Jenis Euploidi:

Monoploidi dan Haploidy:

Individu monoploid memiliki satu set dasar kromosom, misalnya, dalam jelai 2n = x = 7 (haploid dari spesies diploid). Haploid adalah individu dengan jumlah kromosom setengah dari jumlah somatik, misalnya dalam gandum (2n = 3x = 21).

Pada spesies diploid, jumlah kromosom monoploid dan haploid sama, tetapi pada spesies poli­ploid jumlah kromosom mono­ploid dan haploid berbeda. Pada gandum poliploid (6x = 42), haploidnya adalah 3x = 21 dan manoploidnya adalah x = 7.

Pada tumbuhan berbunga, fase diplofase atau sporofit mendominasi fase haplofase atau fase gametofit biasanya terbatas pada butiran polen dan kantung embrio. Dalam kasus pengecualian, tanaman mungkin muncul yang sepenuhnya haploid. Berkenaan dengan semua bagiannya, hap­loid lebih kecil dan sering menunjukkan kekuatan yang buruk.

Meiosis pada haploid sejati tentu saja sangat tidak beraturan dan kromosom tersebar secara acak, beberapa di antaranya berpindah ke satu kutub, yang lain ke kutub yang berlawanan. Selain itu, sering terjadi eliminasi kromosom yaitu, kromosom tunggal dihilangkan dalam sitoplasma dan tidak termasuk dalam butiran serbuk sari atau kantung embrio.

Dalam kebanyakan kasus, serbuk sari dan kantung embrio akan menerima konstitusi kromosom yang tidak lengkap atau tidak seimbang, yang akan memiliki efek mematikan. Dengan demikian, haploid sepenuhnya atau hampir sepenuhnya steril.

Haploid memiliki tipe yang berbeda (Gbr. 11.6). Polihaploid adalah haploid yang diperoleh dari spesies poliploid, misalnya kelompok gandum, yaitu hexaploid dengan 2n = 42, mengandung lebih dari satu genom. Jika genomnya homolo­gous atau sebagian homolog, pembentukan bivalen dan kesuburan yang baik dalam polihaploid mungkin menjadi konsekuensinya.

Aneuhaploid juga tersedia dan terdiri dari dua jenis — haploid disomik (haploid diperoleh dari tetrasomik) dan haploid nulisomik (kekurangan satu kromosom daripada euhaploid).

Haploid mungkin muncul secara spontan & malu-malu tetapi, sebagai aturan, hanya dalam frekuensi & rasa malu yang sangat rendah. Haploid dapat diinduksi melalui

(i) Penyerbukan tertunda dan telur membelah tanpa pembuahan,

(iii) Penyerbukan dengan spesies yang tidak cocok, misalnya, Solanum nigrum diserbuki dengan serbuk sari dari S. luteum, haploid dari S. nigrum dapat muncul. Haploid ini berasal dari sel telur S. nigrum yang tidak dibuahi.

Metode keempat untuk mendapatkan haploid dan poliembrioni adalah dengan metode kembar. Terakhir, metode yang paling penting untuk induksi haploidi adalah dengan membiakkan serbuk sari secara in vitro seperti yang dilakukan pada spesies Datura, Oryza dan beberapa tanaman pertanian lainnya.


Perubahan Jumlah Kromosom

Sel manusia biasanya mengandung 23 pasang kromosom, dengan total 46 kromosom di setiap sel. Perubahan jumlah kromosom dapat menyebabkan masalah pada pertumbuhan, perkembangan, dan fungsi sistem tubuh. Perubahan ini dapat terjadi selama pembentukan sel-sel reproduksi (telur dan sperma), pada awal perkembangan janin, atau pada sel mana pun setelah lahir. Kelebihan atau kekurangan kromosom dari 46 normal disebut aneuploidi.

Bentuk umum aneuploidi adalah trisomi, atau adanya kromosom ekstra dalam sel. "Tri-" adalah bahasa Yunani untuk "tiga" orang dengan trisomi memiliki tiga salinan kromosom tertentu dalam sel, bukan dua salinan normal. Down syndrome adalah contoh kondisi yang disebabkan oleh trisomi. Orang dengan sindrom Down biasanya memiliki tiga salinan kromosom 21 di setiap sel, dengan total 47 kromosom per sel.

Gambar 1 Kariotipe ini, yang merupakan gambaran semua kromosom dari satu individu, berasal dari orang yang memiliki Trisomi 13.

Monosomi, atau hilangnya satu kromosom dalam sel, adalah jenis lain dari aneuploidi. "Mono-" adalah bahasa Yunani untuk "satu" orang dengan monosomi memiliki satu salinan kromosom tertentu dalam sel, bukan dua salinan normal. Sindrom Turner adalah suatu kondisi yang disebabkan oleh monosomi. Wanita dengan sindrom Turner biasanya hanya memiliki satu salinan kromosom X di setiap sel, dengan total 45 kromosom per sel.

Jarang, beberapa sel berakhir dengan set kromosom ekstra lengkap. Sel dengan satu set kromosom tambahan, dengan total 69 kromosom, disebut triploid. Sel dengan dua set kromosom tambahan, dengan total 92 kromosom, disebut tetraploid. Suatu kondisi di mana setiap sel dalam tubuh memiliki satu set kromosom ekstra tidak kompatibel dengan kehidupan.

Gambar 2 "Ploid" mengacu pada jumlah salinan setiap kromosom yang ditemukan dalam sel somatik. Gambar 3 Sel manusia dan sel hewan lainnya tidak berkembang jika mereka memiliki satu set kromosom ekstra. Sebaliknya, tanaman sering memiliki seluruh set kromosom yang disalin. Strawberry ini merupakan contoh tumbuhan yang bersifat tetraploid.

Dalam beberapa kasus, perubahan jumlah kromosom hanya terjadi pada sel tertentu. Ketika seorang individu memiliki dua atau lebih populasi sel dengan susunan kromosom yang berbeda, situasi ini disebut mosaikisme kromosom. Mosaikisme kromosom terjadi dari kesalahan pembelahan sel pada sel selain telur dan sperma. Paling umum, beberapa sel berakhir dengan satu kromosom ekstra atau hilang (dengan total 45 atau 47 kromosom per sel), sementara sel lain memiliki 46 kromosom biasa. Sindroma Mosaic Turner adalah salah satu contoh mosaikisme kromosom. Pada wanita dengan kondisi ini, beberapa sel memiliki 45 kromosom karena kehilangan satu salinan kromosom X, sementara sel lain memiliki jumlah kromosom yang biasa.

Banyak sel kanker juga mengalami perubahan jumlah kromosom. Perubahan ini tidak diwariskan, mereka terjadi pada sel somatik (sel selain telur atau sperma) selama pembentukan atau perkembangan tumor kanker.


Metode

Bahan tanaman

Kultivar 'Camarosa' dipilih karena pentingnya bagi industri secara historis, telah menjadi salah satu varietas hari pendek yang paling banyak ditanam di seluruh dunia, dan tetap menjadi genotipe penting dalam program pemuliaan. Ukuran genom haploid (

813,4 Mb) diperkirakan melalui flow cytometry dengan empat ulangan teknis di Flow Cytometry Core di Benaroya Research Institute di Virginia Mason (Supplementary Dataset 3).

Urutan genom

DNA genomik berbobot molekul tinggi diisolasi dari jaringan daun muda, setelah perlakuan gelap 72 jam, melalui metode preparasi inti yang dimodifikasi 75,76 , dan kualitasnya diverifikasi melalui elektroforesis gel medan-pulsa. Sebanyak lima pustaka PacBio 20-kb dihasilkan dengan SMRTbell Template Prep Kit (PacBio) dan diurutkan dengan 67 sel SMRT pada platform PacBio RSII di UC Davis DNA Sequencing Facility. Sebanyak 67 Gb (

82,4×) dari data urutan PacBio dihasilkan dengan n50 panjang baca 17.699 bp (Tabel Tambahan 3). Fragmen DNA yang lebih panjang dari 50 kb digunakan untuk membuat pustaka 10X Gemcode dengan instrumen Chromium (10X Genomics) dan diurutkan pada sistem HiSeqX (Ilumina) dengan pembacaan 150-bp ujung berpasangan di HudsonAlpha Institute for Biotechnology. Total dari

117× lipat cakupan) dari 10X data perpustakaan Chromium diurutkan (Tabel Tambahan 1). Akhirnya, lima perpustakaan genomik Illumina yang dipilih dengan ukuran mulai dari 470 bp hingga 10 kb dibangun (Tabel Tambahan 1). NS

Pustaka 800-bp dibuat dengan Kit Persiapan Sampel V2 bebas PCR DNA Illumina TruSeq. keduanya

Pustaka 470-bp dirancang untuk menghasilkan 'pustaka yang tumpang tindih' setelah diurutkan dengan pembacaan berpasangan, 265-bp pada sistem Illumina Hiseq2500, menghasilkan pembacaan 'dijahit' dengan panjang sekitar 265 bp hingga 520 bp. Untuk meningkatkan keragaman dan kedalaman urutan, kami membuat tiga library mate-pair (MP) terpisah dengan lompatan 2–5 kb, 5–7 kb, dan 7–10 kb, dengan Kit Persiapan Sampel Mate-Pair Illumina Nextera. Pustaka 800-bp diurutkan pada sistem Illumina HiSeq2500 dengan pembacaan berpasangan, 160-bp, dan pustaka MP diurutkan pada sistem Illumina HiSeq4000 dengan pembacaan 150-bp akhir berpasangan. Total dari

455× lipat cakupan) dari data sekuensing Illumina tambahan dihasilkan (Tabel Tambahan 1). Konstruksi dan pengurutan perpustakaan Illumina dilakukan di Roy J. Carver Biotechnology Center, University of Illinois di Urbana-Champaign.

Perakitan genom

Genom dirakit dengan platform perangkat lunak DeNovoMAGIC (NRGene), assembler berbasis grafik DeBruijn yang dirancang untuk genom poliploid, heterozigot, dan/atau berulang yang lebih tinggi 32,77 . Data Chromium 10X digunakan untuk fase haplotipe dan mendukung validasi perancah dan perpanjangan perancah bertahap lebih lanjut. Pustaka HiC Dovetail disiapkan seperti yang dijelaskan sebelumnya 78 dan diurutkan pada sistem Illumina HiSeqX dengan pembacaan 150-bp ujung-berpasangan ke

401× kedalaman urutan genom (Gambar Tambahan 2). Rakitan de novo awal, pembacaan genomik mentah, dan pembacaan pustaka Dovetail HiC digunakan sebagai data input untuk HiRise, sebuah jalur perangkat lunak yang dirancang khusus untuk menggunakan data ligasi kedekatan untuk menyusun rakitan genom ke pseudomolekul panjang kromosom 79 . Setelah scaffolding HiRise, sekuens diisi celah dengan pembacaan PacBio dengan PBJelly 33 . Kesenjangan yang diisi dengan urutan PacBio dipoles dengan Pilon (v 1.22) 80 dengan data akhir berpasangan Illumina. Pembacaan Illumina dipangkas kualitasnya dengan Trimmomatic 81 dan disejajarkan dengan draft contigs dengan bowtie2 (v 2.3.0) 82 dengan parameter default. Parameter untuk Pilon dimodifikasi sebagai berikut: --flank 7, --K 49, dan --mindepth 20. Pilon dijalankan secara rekursif tiga kali, dan pada ronde ketiga terdapat sedikit koreksi, sehingga mendukung koreksi indel yang akurat. Peta genetik 34 yang diterbitkan dan analisis sintetik terhadap F. vesca 37 genom dengan SynMap dalam CoGe 83 digunakan untuk mengidentifikasi kesalahan perakitan dan varian haplotipe, dan untuk menetapkan set kromosom homoeolog. Detail dan hasil perakitan tambahan dirangkum dalam informasi tambahan.

Pengumpulan jaringan, persiapan pustaka RNA, dan pengurutan

Sampel jaringan tanaman (bunga sebelum mekar, bunga saat mekar, daun dikumpulkan pada siang dan malam hari, daun yang diberi methyl jasmonate (30 menit, 4 jam, dan 24 jam setelah perawatan), runner, dan akar yang diberi garam dan tidak diberi perlakuan) dikumpulkan dari Fragaria × ananassa kultivar 'Camarosa' tumbuh di ruang pertumbuhan dan segera dibekukan dalam nitrogen cair. Jaringan daun juga dikumpulkan dari spesies diploid liar yang ditanam di ruang pertumbuhan untuk analisis filogenetik (Tabel Tambahan 7). Total RNA diisolasi dengan KingFisher Pure RNA Plant Kit (Thermo Fisher) dan diukur dengan fluorometer Qubit 3 (Thermo Fisher). Pustaka RNA disiapkan dengan protokol KAPA mRNA HyperPrep Kit (KAPA Biosystems). Semua sampel diserahkan ke inti Genomik Fasilitas Pendukung Teknologi Penelitian Universitas Negeri Michigan dan diurutkan dengan pembacaan 150-bp ujung berpasangan pada sistem Illumina HiSeq 4000.

Perakitan dan terjemahan transkriptom

Pembacaan dibersihkan dengan Trimmomatic v 0.32 (ref. 81 ) dengan pemangkasan adaptor untuk pembacaan berpasangan TruSeq3 dengan ketidakcocokan 1-bp, ambang batas klip palindrom 30, dan ambang batas klip sederhana 10. Bacaan kemudian disaring berdasarkan dari skor phred rata-rata yang dihitung dari jendela geser 10 bp dengan ambang batas minimum 20 (Dataset Tambahan 4). Kualitas bacaan yang dipangkas dinilai setelahnya dengan FastQC 84 . Rakitan transkriptom yang dipandu genom dan de novo dihasilkan dengan Trinity v 2.2.0 (ref. 85 ) untuk masing-masing anotasi/ekspresi genom dan analisis filogenetik. Untuk anotasi genom dan analisis ekspresi, pembacaan disejajarkan dengan Fragaria × ananassa kultivar 'Camarosa' genom dengan STAR v 2.5.3a 86 dengan opsi default, kecuali untuk --alignIntronMax, yang diatur ke 10000. Untuk anotasi genom, file output BAM yang diurutkan koordinat dari STAR digunakan untuk perakitan transkriptom yang dipandu genom , dan file SAM yang diurutkan nama digunakan untuk analisis ekspresi gen (HTSeq di bagian 3). Untuk pustaka spesies diploid yang digunakan dalam analisis filogenetik, karena pustaka transkriptom dihasilkan dengan metode terdampar, parameter 'SS_lib_type' dengan opsi 'RF' digunakan dalam perakitan. Selain itu, pembacaan dinormalisasi ke cakupan baca maksimum 100 dengan 'normalize_max_read_cov' di Trinity. Opsi normalisasi, yang menurunkan jumlah pembacaan input untuk gen yang diekspresikan tinggi, digunakan untuk meningkatkan efisiensi perakitan 87 . Untuk analisis bias ekspresi homoeolog (HEB) (dijelaskan dalam bagian di bawah), jumlah pembacaan pemetaan unik dihasilkan dengan HTSeq v 0.6.1 (ref. 88 ) dengan opsi default htseq-count, kecuali untuk tipe fitur, yang disetel ke 'gen' untuk semua set data RNA-seq dari 'Camarosa'. Nilai fragmen per kilobase per juta bacaan yang dipetakan (FPKM) diturunkan dengan rumus standar untuk FPKM = (jumlah baca/faktor penskalaan 'per juta')/panjang gen dalam kilobase. Untuk analisis filogenetik, menurut McKain et al. 89 , pembacaan disejajarkan dengan transkrip rakitan dengan bowtie v 1.1.0 (ref. 90 ), dan kelimpahan transkrip diperkirakan dengan RSEM v 1.2.29 (ref. 91 ) melalui skrip align_and_estimate_abundance.pl yang dikemas dengan Trinity. Transkrip difilter oleh FPKM, keluaran dari skrip Perl yang disebutkan di atas, dengan ambang minimum 1,0% fragmen per isoform yang dipetakan, seperti yang diterapkan dalam skrip filter_fasta_by_rsem_values.pl. Transkrip yang difilter diledakkan terhadap Fragaria vesca v 2.01 urutan pengkodean dengan TBLASTX dengan minimum e nilai 1 × 10 –10 . Paket RefTrans (lihat URL) digunakan untuk menerjemahkan transkrip yang dirakit dengan memfilter hit BLAST untuk mengidentifikasi hit terbaik dengan setidaknya 75% tumpang tindih dua arah antara transkrip dan F. vesca urutan pengkodean. Hit terbaik digunakan untuk memandu terjemahan dengan GeneWise (Wise2 v 2.2.0) 92 . Terjemahan terpanjang digunakan dalam analisis hilir.

Anotasi gen

Genom dianotasi dengan pipa anotasi MAKER-P 36 . Urutan protein (basis data tanaman Araport11 dan UniprotKB), tag urutan terekspresikan (NCBI), dan sepuluh set data mRNA-seq (dijelaskan di bawah) dan data RNA-seq tambahan untuk Fragaria × ananassa diunduh dari NCBI-SRA (BioProject PRJNA394190 buah pematangan merah) digunakan sebagai bukti selama anotasi. Kumpulan data RNA-seq dirakit menjadi transkrip melalui pendekatan yang dipandu genom StringTie 93 . Pustaka pengulangan khusus (bagian 'Anotasi ulangi' di bawah) dan pustaka pengulangan MAKER 94 digunakan untuk penyembunyian genom. Prediksi gen ab initio dilakukan dengan prediktor gen SNAP 95 dan Augustus 96 , yang sebelumnya dilatih secara iteratif untuk F. vesca 37 . Selama anotasi, model gen dengan jarak edit anotasi <1.0 disertakan dalam set gen MAKER dan dipindai untuk keberadaan domain protein. Model gen yang diprediksi disaring lebih lanjut untuk menghapus yang memiliki domain terkait TE. Secara singkat, gen pengkode protein dicari (BLASTp, e = 10 –10 ) terhadap database transposase dari studi sebelumnya 36 , dan jika lebih dari 50% panjang gen selaras dengan transposase, gen tersebut dihapus dari set gen. Namun, jika 60% atau lebih kecocokan asam amino hanya disebabkan oleh tiga asam amino individu, penyelarasan dianggap disebabkan oleh kompleksitas rendah dan dikeluarkan. Selain itu, untuk menilai apakah gen tanaman inti dianotasi, set gen dicari terhadap set data tanaman BUSCO v 2 (ref. 35 ) (embryophyta_odb9). lncRNA, termasuk RNA nonkode intergenik panjang, transkrip tumpang tindih antisense, dan transkrip tumpang tindih indra, diidentifikasi dengan jalur penemuan lncRNA Evolinc (v 1.5.1) 97 . Transkrip dengan kurang dari tiga bacaan per pasangan basa dibuang. LncRNA diduga dengan kesamaan (BLASTn e nilai <1 × 10 10 ) ke TE atau katalog rFAM yang diketahui (v 13.0) 98 RNA housekeeping telah dihapus.

Ulangi anotasi

NS Fragaria × ananassa genom dicari LTR-RT dengan LTRharvest 99 dengan parameter '-minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 -motif TGCA -motifmis 1 -milar 85 -vic 10 -seed 20 -seqids yes' dan LTR_finder 100 dengan parameter ' -D 15000 -d 1000 -L 7000 -l 100 -p 20 -M 0,9'. Kandidat LTR-RT yang teridentifikasi disaring dengan LTR_retriever 101 dengan parameter default. Miniatur TE terbalik (MITEs) diidentifikasi dengan MITE-Hunter 102 . Kandidat MITE diperiksa secara manual untuk TSD dan TIR, yang digunakan untuk klasifikasi superfamili. Mereka dengan TSD dan TIR yang ambigu diklasifikasikan sebagai tidak diketahui. NS Fragaria × ananassa genom kemudian ditutupi dengan pustaka MITE dan LTR melalui Repeatmasker 103 (lihat URL), dan elemen berulang lainnya diidentifikasi dengan Repeatmodeler 104 (lihat URL). Pengulangan tersebut kemudian dikelompokkan menjadi dua kategori: urutan identitas yang diketahui dan urutan identitas yang tidak diketahui. Yang terakhir kemudian dicari terhadap database transposase, dan jika mereka cocok, mereka dimasukkan dalam perpustakaan TE. Pustaka selanjutnya disaring dengan ProtExcluder 36 dan skrip Perl internal untuk mengecualikan fragmen gen. Pustaka TE terakhir digunakan untuk memberi anotasi pada Fragaria × ananassa genome dengan RepeatMasker 103 dengan parameter '-q -no_is -norna -nolow -div 40'. Hasil anotasi dirangkum dengan skrip 'famcoverage.pl' dari paket LTR-retriever 101 .

Anotasi genom organel

Genom kloroplas dianotasi dengan Verdant, perangkat lunak berbasis web yang dirancang khusus untuk genom kloroplas tanaman 105 . Anotasi otomatis dari gen penyandi protein, tRNA, dan rRNA dilengkapi dengan annoBTD (lihat URL). Lima plastom Rosaceae dalam database Verdant dipilih sebagai referensi untuk anotasi, termasuk Fragaria vesca Genom kloroplas 'Hawaii 4' 37 . ORF yang diidentifikasi sebelumnya diledakkan terhadap genom referensi dengan TBLASTX 106 dengan e-nilai cutoff 0,1 dan cutoff 50% identitas antara referensi dan pasangan segmen skor tinggi. Referensi terbaik untuk setiap ORF digunakan untuk anotasi. BLASTN 106 yang dioptimalkan digunakan untuk mengidentifikasi dan membubuhi keterangan tRNA dan rRNA berdasarkan genom referensi. Referensi skor terbaik digunakan untuk membubuhi keterangan RNA. Akhirnya, batas setiap fitur diidentifikasi berdasarkan urutan dan informasi posisi untuk fitur ortologis dari lima genom kloroplas referensi (Gambar Tambahan 5). Genom mitokondria dijelaskan dengan server web untuk Mitofy (lihat URL), sebuah program yang dirancang untuk memberi keterangan pada gen dan tRNA dalam genom mitokondria tanaman benih 107 . Mitofy menggunakan NCBI-BLASTX untuk menganotasi gen berdasarkan basis data dari 41 gen pengkode protein dan menggunakan NCBI-BLASTN dan tRNAscan-SE 108 untuk membubuhi keterangan tRNA dan rRNA berdasarkan database 27 tRNA dan 3 rRNA yang ditemukan di tanaman benih genom tanaman mitokondria. Genom plastid dan mitokondria beranotasi telah disimpan di Dryad (lihat URL).

Synteny dan genomik komparatif

'Camarosa' dan F. vesca 37 genom disejajarkan dalam program SynMap CoGe dengan LAST 83 . Jarak maksimum antara dua kecocokan diatur ke 20 gen, dan jumlah minimum pasangan selaras diatur ke sepuluh gen. Blok syntenic tetangga digabungkan dengan 'Quota Align Merge' 109 , dengan jarak maksimum antara dua blok diatur ke 40 gen. Kedalaman syntenic dihitung dengan 'Quota Align', dan rasio kedalaman cakupan untuk F. vesca ke F. ananassa gen diatur ke 1:4. Gen yang digandakan secara tandem diidentifikasi dan disaring dari keluaran CoGe dengan jarak maksimal sepuluh gen. Bias fraksinasi kemudian dihitung, dengan kromosom kueri maksimum diatur ke 28 dan kromosom target maksimum diatur ke tujuh. Analisis dapat dibuat ulang dengan CoGe (lihat URL). Kedua genom juga disejajarkan dengan MUMmer v 3.2 (ref. 110 ) untuk mengidentifikasi pertukaran homoeolog (Tabel Tambahan 10) dengan parameter (nucmer --maxmatch -l 80 -c 200) dan divisualisasikan dengan dotPlotly (lihat URL).

Analisis filogenetik

Transkriptom yang diterjemahkan dan gen penyandi protein seluruh genom untuk Fragaria × ananassa, F. vesca v 2.01, A. thaliana TAIR10 (ref. 111 ), dan Malus domestica v 1.0 (ref. 112 ) (Phytozome v 12) 113 dikelompokkan dengan Orthofinder v 0.3 (ref. 114 ) dengan Diamond v 0.8.36 (ref. 115 ) untuk pencarian kesamaan. Orthogroup disaring sehingga minimal ada lima aksesi unik. Urutan pengkodean dan terjemahan asam amino dipisahkan menjadi file FASTA spesifik ortogroup. Urutan asam amino disejajarkan dengan MAFFT v 7.215 (ref. 116 ) dengan parameter 'otomatis', dan PAL2NAL v 14 (ref. 117) digunakan di bawah parameter default untuk membuat penyelarasan kodon dari asam amino selaras MAFFT. Penjajaran kodon disaring dengan menghilangkan kolom penyelarasan dengan 90% atau lebih celah dan transkrip dengan panjang yang tidak selaras kurang dari 30% dari panjang penyelarasan, dengan skrip yang disediakan dengan McKain et al. 89 . Pohon orthogroup direkonstruksi dengan RAxML v 8.0.6 dengan 500 bootstrap ulangan di bawah model evolusi GTR + gamma. Semua 108.087 gen penyandi protein dari F. x ananassa Genom 'Camarosa' digunakan dalam orthogrouping awal. Setelah penyaringan ortogroup dengan kurang dari lima taksa, 51.737 gen 'Camarosa' tetap ada di 8.405 pohon gen. Sebanyak 19.302 lokus unik yang diidentifikasi dalam blok sintenik besar yang membentuk 18.839 pasangan paralog digunakan untuk menilai sejarah evolusi subgenom. Outgroup dipilih dari keduanya A. thaliana atau M. domestica, dengan preferensi diberikan kepada A. thaliana sebagai kelompok luar. Untuk menilai sejarah evolusi subgenom stroberi octoploid, algoritma pencarian pohon baru dikembangkan yang disebut 'identifikasi filogenetik subgenom' (PhyDS lihat URL). Satu-satunya parameter yang diperlukan untuk PhyDS adalah daftar taksa, jika ada, untuk diabaikan dalam pohon gen dan nilai bootstrap minimum untuk menetapkan ambang batas untuk subpohon yang dapat diterima. Dalam analisis ini, hanya gen dari genom 'Camarosa' yang diabaikan (yaitu, PhyDS tidak berhenti ketika menemukan gen Fxa selain paralog saudara) untuk mengidentifikasi masing-masing nenek moyang diploid dari stroberi octoploid. Hasil dari berbagai cutoff dukungan bootstrap disediakan. Homoeolog ini kemudian dipetakan kembali ke masing-masing kromosom yang dirakit dan, berdasarkan frekuensi relatifnya, digunakan untuk menetapkan setiap kromosom ke spesies progenitor diploid (Tabel Tambahan 8).

Analisis ekspresi gen

HEB dinilai dengan tes rasio kemungkinan yang dijelaskan dalam ref. 23 , dengan analisis data transkriptom antera, akar, dan daun. Tes ini terdiri dari satu set tiga hipotesis bersarang. Hipotesis nol, H0, adalah bahwa homoeolog diekspresikan pada tingkat yang sama setelah normalisasi untuk panjang gen dan kedalaman sekuensing. Hipotesis alternatif pertama, H1, adalah bahwa salah satu homoeolog diekspresikan lebih tinggi di semua jaringan, sehingga perbedaannya dapat dijelaskan oleh faktor penskalaan tunggal. Hipotesis alternatif kedua, H2, adalah bahwa homoeolog diekspresikan secara tidak merata dan tidak konsisten di ketiga jaringan. Pasangan homoeolog yang H0 dapat ditolak karena H1, tetapi H1 cannot be rejected for H2, are therefore cases in which one of the homoeologs appears to be up- or downregulated consistently throughout the organism. For the first test, the Benjamini–Hochberg 118 correction for multiple testing was applied. For the second test, because the question was being unable to reject a hypothesis, no correction was made. Both tests used a 1% significance level. Pairwise genomic alignments, described above, were used to identify homoeologs for each of the subgenomes, retained duplicate genes from tandem duplications, and orthologous genes to A. thaliana 111 , on the basis of ortholog assignments in F. vesca 37 . Thes complete list of FragariaArabidopsis orthologs was then filtered to genes with functional data in the AraGEM Arabidopsis metabolic 72,119 and STRING global protein interaction network 120 . These gene lists were used to investigate subgenome- and pathway-level-specific expression in fruit with an available transcriptome dataset in NCBI-SRA (BioProject PRJNA394190) (Supplementary Dataset 2).

Analysis of disease-resistance-gene familie

NBS-LRR genes were detected with HMMER v 3.1 (ref. 121 ) with default settings, by searching the protein sequences of the Fragaria × ananassa genome against the raw hidden Markov model for the NB-ARC-domain family downloaded from Pfam (family ID PF00931) 122 . Only genes identified by both HMMER and BLAST were used for subsequent analysis. TIR subdomains were detected with PfamScan on default settings by searching the identified NB-ARC genes against the Pfam-A hidden Markov model. The 423 Fxa NB-ARC-domain-containing proteins were batch-searched in the NCBI Conserved Domain Database (see URLs) 123 and Pfam database (see URLs). Results from the CD database were used to assign the gene models that contained CC, TIR, RPW8, or ‘other’ (none of the three established N-terminal domains) gene models were further mapped onto the assembled octoploid genome to assign positions (Supplementary Fig. 12). The CD results were then filtered to remove established R-gene domains (CC, TIR, RPW8, LRR, and NB-ARC), thus resulting in a list of potential integrated domains (Supplementary Dataset 1). Eight Fxa proteins with predicted Sec7/ADP-ribosylation-factor and G-nucleotide-exchange-factor domains were aligned by ClustalW and FastME 2.0 (ref. 124 ), and their illustrated domain organization is displayed in Supplementary Fig. 13. The full protein sequences of the 423 Fxa NB-ARC-domain-containing proteins were aligned with MUSCLE v 3.8.31 (ref. 125 ) under default settings. This alignment was trimmed with trimAl v 1.4.rev22 build 2015-05-21 (ref. 126 ) under default settings. An unrooted maximum-likelihood tree was constructed with RAxML v 8.2.11 (ref. 127 ) with the PROTGAMMA substitution model. The tree was visualized with the APE package v 4.1 (ref. 128 ) in R v 3.3.3 (ref. 129 ) (see URLs).

Analisis statistik

The comparison of homoeolog-expression abundance between the dominant subgenome and the three submissive subgenomes was carried out with a likelihood-ratio test and combined with Benjamini–Hochberg correction for multiple testing with a 1% significance level. The Kolmogorov–Smirnov test was used to determine which subgenome had the lowest-overall TE densities near genes. NS χ 2 test, with three degrees of freedom, was used to analyze the subgenome bias of disease-resistance genes. Bootstrapping, with 500 replicates under the GTR + gamma evolutionary model, was used to assess node support in trees generated by phylogenetic analyses.

Ringkasan Pelaporan

Informasi lebih lanjut tentang desain penelitian tersedia di Ringkasan Pelaporan Penelitian Alam yang ditautkan ke artikel ini.


Two From One: Evolution Of Genders From Hermaphroditic Ancestors Mapped Out

Research from the University of Pittsburgh published in the Nov. 20 edition of the journal Heredity could finally provide evidence of the first stages of the evolution of separate sexes, a theory that holds that males and females developed from hermaphroditic ancestors. These early stages are not completely understood because the majority of animal species developed into the arguably less titillating separate-sex state too long ago for scientists to observe the transition.

However, Tia-Lynn Ashman, a plant evolutionary ecologist in the Department of Biological Sciences in Pitt's School of Arts and Sciences, documented early separate-sex evolution in a wild strawberry species still transitioning from hermaphroditism. These findings also apply to animals (via the unified theory) and provide the first evidence in support of the theory that the establishment of separate sexes stemmed from a genetic mutation in hermaphroditic genes that led to male and female sex chromosomes. With the ability to breed but spared the inbred defects of hermaphrodites, the separate sexes flourished.

&ldquoThis is an important test of the theory of the early stages of sex chromosome evolution and part of the process of understanding the way we are today,&rdquo Ashman said. She added that the study also shows that plants can lend insight into animal and human evolution. &ldquoWe have the opportunity to observe the evolution of sex chromosomes in plants because that development is more recent. We wouldn't see this in animals because the sex chromosomes developed so long ago. Instead, we can study a species that is in that early stage now and apply it to animals based on the unified theory that animal and plant biology often overlaps.&rdquo

Ashman reported in the journal Science in 2004 that animals and flowering plants employ similar reproductive strategies to increase reproductive success and genetic diversity. These methods include large numbers of sperm cells in males, mate competition and attraction through fighting or natural ornamentation, aversion to inbreeding, and the male inclination to sire as many offspring as possible.

For the current study, Ashman and Pitt postdoctoral research associate Rachel Spigler worked with a wild strawberry species in which the evolution of separate sexes is not complete, so hermaphrodites exist among male and female plants. Sex chromosomes in these plants have two loci-or positions of genes on a chromosome-one that controls sterility and fertility in males and the other in females. Offspring that inherit both fertility versions are hemaphrodites capable of self-breeding. Plants that possess one fertility and one sterility version become either male or female. Those with both sterility versions are completely sterile, cannot reproduce, and, thus, die out.

The single-sex plants breed not only with one another but also with hermaphroditic plants and pass on the mutation, which can result in single-sex offspring. (Sterile plants also can result, but plants with genes that favor the production of fertile offspring will be more successful.) When inbreeding depression in hermaphrodites is also considered, Ashman said, a gradual decline in the number of hermaphroditic plants is to be expected. Consequently, fewer chromosomes with both fertility versions of the loci will be passed on and the frequency of single-sex individuals will increase.


Evolution of Primates

The first primate-like mammals are referred to as proto-primates. They were roughly similar to squirrels and tree shrews in size and appearance. The existing fossil evidence (mostly from North Africa) is very fragmented. These proto-primates remain largely mysterious creatures until more fossil evidence becomes available. The oldest known primate-like mammals with a relatively robust fossil record is Plesiadapis(although some researchers do not agree that Plesiadapis was a proto-primate). Fossils of this primate have been dated to approximately 55 million years ago. Plesiadapiforms were proto-primates that had some features of the teeth and skeleton in common with true primates. They were found in North America and Europe in the Cenozoic and went extinct by the end of the Eocene.

The first true primates were found in North America, Europe, Asia, and Africa in the Eocene Epoch. These early primates resembled present-day prosimians such as lemurs. Evolutionary changes continued in these early primates, with larger brains and eyes, and smaller muzzles being the trend. By the end of the Eocene Epoch, many of the early prosimian species went extinct due either to cooler temperatures or competition from the first monkeys.

Anthropoid monkeys evolved from prosimians during the Oligocene Epoch. By 40 million years ago, evidence indicates that monkeys were present in the New World (South America) and the Old World (Africa and Asia). New World monkeys are also called Platyrrhini—a reference to their broad noses (Gambar 1). Old World monkeys are called Catarrhini—a reference to their narrow noses. There is still quite a bit of uncertainty about the origins of the New World monkeys. At the time the platyrrhines arose, the continents of South American and Africa had drifted apart. Therefore, it is thought that monkeys arose in the Old World and reached the New World either by drifting on log rafts or by crossing land bridges. Due to this reproductive isolation, New World monkeys and Old World monkeys underwent separate adaptive radiations over millions of years. The New World monkeys are all arboreal, whereas Old World monkeys include arboreal and ground-dwelling species.

Gambar 1. The howler monkey is native to Central and South America. It makes a call that sounds like a lion roaring. (credit: Xavi Talleda)

Apes evolved from the catarrhines in Africa midway through the Cenozoic, approximately 25 million years ago. Apes are generally larger than monkeys and they do not possess a tail. All apes are capable of moving through trees, although many species spend most their time on the ground. Apes are more intelligent than monkeys, and they have relatively larger brains proportionate to body size. The apes are divided into two groups. The lesser apes comprise the family Hyobatidae, including gibbons and siamangs. The great apes include the genera Panci (chimpanzees and bonobos) (Figure 2a), Gorila (gorillas), Pongo (orangutans), and Homo (humans) (Figure 2b). The very arboreal gibbons are smaller than the great apes they have low sexual dimorphism (that is, the sexes are not markedly different in size) and they have relatively longer arms used for swinging through trees.

Gambar 2. The (a) chimpanzee is one of the great apes. It possesses a relatively large brain and has no tail. (b) All great apes have a similar skeletal structure. (credit a: modification of work by Aaron Logan credit b: modification of work by Tim Vickers)


Hasil

Is Average Genome Size of a Taxonomic Group Related to Variation within That Group?

We collected information on genome size, chromosome number, individual chromosome size, repeat-masked chromosome size (without repeat proportion), and common name groupings for 128 species with sequenced genomes, including prokaryotes, unicellular eukaryotes, invertebrates, vascular plants, and vertebrates ( supplementary tables 1 and 2 , Supplementary Material online). Across all sequenced prokaryotic and diploid eukaryotic species, genome size correlated with chromosome number and average chromosome size. Genome size varied considerably among species with similar levels of cellular and organismal complexity, but there was a general increase in genome size from prokaryotes to unicellular eukaryotes to multicellular eukaryotes ( fig. 1). In addition, continuities in the scale of genome size across different groups of organisms indicate that organismal differences in cell/tissue anatomical structure or metabolism are unlikely to be the primary forces driving the evolution of genomic architecture ( Lynch and Conery 2003).

Using these base pair data for genome size, we tested whether variation in genome size within each group was proportional to average genome size of the group. Given the sample size of available genomes, we focused our analysis on five phylogenetic branches (i.e., prokaryotes, unicellular eukaryotes, invertebrates, vascular plants, and vertebrates) rather than other finer taxonomic levels. Clearly, variation in genome size (measured as SD) significantly correlated with the average genome size ( fig. 1). After we removed the dependency with Log10 transformation (a method to break the association between average of a group of numbers and the variation of these numbers Oliver et al. 2007), the variation within each group showed no correlation with the average genome size. Groups with a larger average genome size obviously also had a larger variation in genome size. Variation of genome size of each group is the numerator in the calculation of rate of genome size evolution and could provide an approximation if the denominator, evolutionary distance or time, does not differ across groups on the same order of magnitude as the numerator. Interestingly, our findings regarding genome size showed a similar pattern with the previous research in which the rate of genome size evolution was found to be proportional to the average genome size of a clade when the estimated genome size based on C-value was examined across 20 eukaryotic clades and evolutionary distance was obtained from phylogenetic analysis of 18S rDNA ( Oliver et al. 2007).

How Are the Repeat and Nonrepeat Proportions of Genetic Codes Distributed among Different Chromosomes in a Multichromosome Species?

To further examine the role of repeats on genome size and chromosome size, repeat masking of the genome was obtained from either original publications of the sequenced genomes or repeat masking analysis ( Lerat 2010 Smit et al. 2010 verified on May 11, 2010). In general, the repeat proportion of the genome increased from prokaryotes (mean: 0.04) to unicellular eukaryotes (0.08), invertebrates (0.14), vascular plants (0.35), and vertebrates (0.38), following the same trend as genome size ( fig. 1). For vascular plants with complete genome sequence, the repeat proportion of maize (82.5%) and sorghum (60.9%) skewed distribution to the right side. Overall, repeat proportion of chromosomes increases during evolution from prokaryotes to vertebrates, and this trend may become more evident as large genomes of vascular plants and vertebrates are sequenced.

Following the similar logic in genome size analysis, we also tested whether the SD of chromosome size (in base pair) within each species was proportional to the mean of chromosome size. Because of the difference in response to repeat accumulation between circular and linear chromosomes, we considered only eukaryotes with linear chromosomes in this analysis. There was a significant positive correlation between SD of chromosome size and the average chromosome size of a species ( fig. 2). After we removed the magnitude effects with Log10 transformation, however, the SD of chromosome size for all eukaryotic species was bounded in a much smaller region than that for the prokaryotic species. Because 68 diploid eukaryotic species were used and the signal of the relationship between SD and average chromosome size was strong (P = 1.3 × 10 −38 ), we then derived the regression slope (0.3700) of SD on average chromosome size across species. This regression slope provided an ad hoc estimate of a common CV (= SD/mean) for the underlying distributions of chromosome sizes in different species. Although large differences existed for average chromosome size and SD of chromosome size across species, the proportional relationship between them approached a constant. This was further verified by plotting CV, and any deviation was not unexpected because individual CV calculated for each species represented a sample ( supplementary fig. 1 , Supplementary Material online). On the other hand, there was no significant correlation between variation of chromosome size and total chromosome number of a species ( supplementary fig. 1 , Supplementary Material online).

(A) Chromosome-size variation as measured by SD of chromosome size within species correlates positively with average chromosome size (R = 0.96, P = 1.3 × 10 −38 ). Values are in Log10 scale for plotting. Estimate of a common CV in original scale is 0.3700. (B) Absolute nonrepeat size variation (R = 0.97, P = 5.8 × 10 −40 ). (C) Absolute repeat size variation (R = 0.94, P = 4.8 × 10 −31 ). (D) After the dependency of absolute chromosome-size variation on preceding chromosome size is removed with Log10 transformation, chromosome-size variation within species shows no correlation (R = −0.10, P = 0.43) with average chromosome size. (E) Prior Log10 transformed nonrepeat size variation (R = −0.11, P = 0.37). (F) Prior Log10 transformed repeat size variation (R = −0.02 P = 0.89). Prokaryotic chromosomes are not included in the correlation calculation. Each color-coded dot represents the value for individual species.

(A) Chromosome-size variation as measured by SD of chromosome size within species correlates positively with average chromosome size (R = 0.96, P = 1.3 × 10 −38 ). Values are in Log10 scale for plotting. Estimate of a common CV in original scale is 0.3700. (B) Absolute nonrepeat size variation (R = 0.97, P = 5.8 × 10 −40 ). (C) Absolute repeat size variation (R = 0.94, P = 4.8 × 10 −31 ). (D) After the dependency of absolute chromosome-size variation on preceding chromosome size is removed with Log10 transformation, chromosome-size variation within species shows no correlation (R = −0.10, P = 0.43) with average chromosome size. (E) Prior Log10 transformed nonrepeat size variation (R = −0.11, P = 0.37). (F) Prior Log10 transformed repeat size variation (R = −0.02 P = 0.89). Prokaryotic chromosomes are not included in the correlation calculation. Each color-coded dot represents the value for individual species.

Similar to the findings for chromosome size, the SD of nonrepeat size was proportional to the average nonrepeat size and the SD of repeat size proportional to the average repeat size. Although the mechanisms by which nonrepeat and repeat sequences were expanded in eukaryotic genomes are complicated ( Lerat 2010), our results suggest that the rate of expansion among chromosomes is proportional to the preceding chromosome size, which indicates a stochastic process ( fig. 2). Previous estimations of repeat proportions of the genomes have been species specific or based on extrapolation from a smaller number of species ( Lynch and Conery 2003 Lerat 2010) than estimations included in the current study. Our general approach to studying repeat evolution across species with genome sequence data lays the groundwork for detailed studies on evolution of different classes of repeats and their composition among chromosomes, genomes, and taxonomic groups.

Is There a General Rule Behind the Intuitive Observation That Chromosome Lengths Tend to Be Similar in a Species?

We next examined chromosome-size variation in eukaryotes in detail because data available on chromosome length across the sequenced genomes permitted systematic modeling of chromosome size ( supplementary fig. 2 , Supplementary Material online). In addition to the common CV of chromosome size in eukaryotes, we noted that base pair sizes of the chromosomes within individual species usually have the same order of magnitude this inspired further investigation of chromosome-size variation. Two transformations made the modeling process statistically possible and biologically sound: relative chromosome size and chromosome index. Relative chromosome size is obtained by dividing chromosome size in base pair by the average chromosome size of the individual species. Using average chromosome size as the unit of measure standardized the original chromosome size (in base pair) in different orders of magnitude for different species into comparable numbers. Chromosome index is obtained by dividing the ascending ranked chromosome number (subtracting a continuity correction factor 0.5) by the total chromosome number of that particular species. For example, for a species with 2 chromosomes, instead of 1 and 2, the chromosome index becomes 0.25 and 0.75. For a species with 5 chromosomes, instead of 1–5, the chromosome index becomes 0.1, 0.3, 0.5, 0.7, and 0.9. Chromosome index is bounded between 0 and 1, which permits modeling of chromosome size across species with different chromosome numbers. Amazingly, the plot of chromosome size against chromosome index revealed a clear pattern and strongly suggested a common curve similar to a cubic function: the incremental change in chromosome size larger at both ends of the curve but smaller in the middle ( fig. 3).

(A) Model fitting of chromosome size on chromosome index across 886 chromosomes from 68 diploid eukaryotic species. The blue dotted line is the fitted cubic function, and the red line is the fitted inverse of Gamma cumulative distribution function where is the predicted chromosome size for the Jth ordered chromosome of a species Saya with a total of nSaya chromosomes, and is the inverse of Gamma cumulative distribution function with parameter ⁠ . (B) Histogram of chromosome size distribution with the overlaid probability density functions of Gamma (7.0438, 1/7.0438) and Normal (1.0000, 0.1371). The histogram has a mean of 1.0 and a skewness of 1.0046. Gray bars represent approximately 95% of the chromosome size between 0.3851 and 1.8608, and black bars represent the remaining 5% on both ends. Gamma (7.0438, 1/7.0438) has a mean of 1.0 and a variance of 0.1420. Of the chromosome size from Gamma (7.0438, 1/7.0438), 95% lies between 0.4035 and 1.8626. (C) Predicted chromosome-size proportion versus observed chromosome-size proportion. (D) Predicted chromosome-size proportion for a species with a given number of chromosomes. Predictions are plotted for the low hinge, median, and high hinge of the boxplot of individual common name groups: unicellular eukaryotes, invertebrates, vascular plants, and vertebrates.

(A) Model fitting of chromosome size on chromosome index across 886 chromosomes from 68 diploid eukaryotic species. The blue dotted line is the fitted cubic function, and the red line is the fitted inverse of Gamma cumulative distribution function where is the predicted chromosome size for the Jth ordered chromosome of a species Saya with a total of nSaya chromosomes, and is the inverse of Gamma cumulative distribution function with parameter ⁠ . (B) Histogram of chromosome size distribution with the overlaid probability density functions of Gamma (7.0438, 1/7.0438) and Normal (1.0000, 0.1371). The histogram has a mean of 1.0 and a skewness of 1.0046. Gray bars represent approximately 95% of the chromosome size between 0.3851 and 1.8608, and black bars represent the remaining 5% on both ends. Gamma (7.0438, 1/7.0438) has a mean of 1.0 and a variance of 0.1420. Of the chromosome size from Gamma (7.0438, 1/7.0438), 95% lies between 0.4035 and 1.8626. (C) Predicted chromosome-size proportion versus observed chromosome-size proportion. (D) Predicted chromosome-size proportion for a species with a given number of chromosomes. Predictions are plotted for the low hinge, median, and high hinge of the boxplot of individual common name groups: unicellular eukaryotes, invertebrates, vascular plants, and vertebrates.

Further investigation into the potential distribution from which the chromosome sizes (samples) were drawn suggested that a Gamma distribution was a more plausible candidate than other distributions ( fig. 3). Gamma distribution is widely used in engineering and science to model continuous variables that are nonnegative but have right-skewed probability densities ( Schabenberger and Pierce 2002) and provides a natural framework to model chromosome size that is nonnegative. Indeed, a Gamma distribution approximated a histogram of all chromosome sizes (with a mean of 1 and skewness of 1.0046) better than a Normal distribution. Histograms generated from data of individual species, from the pooled data of species with the same total number of chromosomes, and from the pooled data of each common group corroborated this finding. We then theoretically derived the approximate relationship function between chromosome size and chromosome index as an inverse of a Gamma cumulative distribution function, G(α,1/α) − 1 , where α is the parameter. Because no closed form exists for this nonlinear function, we used an iterative procedure (iteratively reweighted least square) that minimizes the influence of variance heterogeneity to obtain the parameter estimate G(7.0438,1/7.0438) − 1 with a 95% confidence interval of as (6.6609, 7.4267). Model fitting statistics indicated a better fit with the Gamma distribution than with other distributions or the intuitive cubic function. Notice that the variance (and CV because mean = 1) of G7.0438 − 1 is 0.3768, which is close to the previous ad hoc CV estimate 0.3700 obtained through simple regression analysis. On the basis of G(7.0438,1/7.0438) − 1 , 95% of the chromosomes in a species are expected to have a base pair length between 0.4035 and 1.8626 times the average chromosome length this interval is applicable to chromosomes in diploid eukaryotic species. However, we admit that practically a Normal distribution is almost equally viable in capturing the chromosome-size variation ( fig. 3 and supplementary table 3 , Supplementary Material online) and is a more general one. The major reason of not choosing Normal distribution is the possible negative values implicated.

Can Prediction Be Made on Chromosome Size?

It follows that, for a given species, chromosome sizes can be predicted by chromosome number. Furthermore, given either genome size or average chromosome base pair length (genome size = average chromosome size × total chromosome number), we can predict the size range of all chromosomes of that species in base pair ( fig. 3). Chromosome-size proportion was obtained by dividing chromosome size by genome size the sum of chromosome-size proportions equaled one. For example, for a species with 15 chromosomes, the shortest and longest chromosomes would be expected to account for 2.87% and 11.99% of the genome, respectively. The predicted ratio of the longest to the shortest chromosome for a given species was 1.68 for a species with two chromosomes and 5.70 for a species with 38 chromosomes. We used this general prediction to confirm the cases in which exceptions occurred for a few outlier species for known reasons: three species known to have macrochromosomes and microchromosomes, one haploid species, and one species with one linear chromosome and one circular chromosome ( supplementary tables 1 and 2 , supplementary fig. 3 , Supplementary Material online).

To show the robustness of the prediction and ensure that we had used an adequate number of genomes (68 diploid eukaryotic genomes), we performed a series of crossvalidation experiments using different proportions of the observed data for function derivation and the rest of the data for validation. Plots of mean square prediction error (MSPE) and parameter estimate indicated that the original sample size was large enough to derive a robust prediction function ( supplementary fig. 4 , Supplementary Material online). The MSPE decreased as more data points were used to derive the prediction function. Likewise, the parameter estimate (α) approached the value from the whole data set. With about 50% of the data (≈35 species), both MSPE and α started to level off, indicating an adequate sample size in the original data to derive the function and make a prediction. In addition, simulation results reproduced the pattern of the observed data, indicating that Gamma distribution viably describes the chromosome-size variation observed ( supplementary fig. 5 , Supplementary Material online). Numbers representing chromosome sizes were drawn from Gamma distributions with specific parameters for species having a chromosome number from 2 to 38. Both the dispersion of the scattered points and the fitted curves of the simulated and observed data confirmed that the pattern discovered was reproducible.

Should Other Evolutionary Alterations Besides Reciprocal Translocation Be Considered in Evolutionary Modeling Studies?

To verify whether reciprocal translocations can adequately model the chromosome-size variation as suggested in previous evolutionary modeling studies ( Sankoff and Ferretti 1996 De et al. 2001 Imai et al. 2001 Mazowita et al. 2006), we ran a set of computer simulations to compare the pattern generated by simulations and by our empirical data. Four simulation schemes were carried out: 1) no constraints on chromosome size, 2) a lower threshold, 3) an upper threshold, and 4) both lower and upper thresholds ( Sankoff and Ferretti 1996 De et al. 2001 Imai et al. 2001 Mazowita et al. 2006). Notice that these thresholds are for individual chromosome size, not their variations. Simulated chromosome sizes based on the reciprocal translocation model without thresholds showed greater variation than we observed in these sequenced genomes, but simulations with both thresholds had a better approximation ( fig. 4, supplementary fig. 6 , Supplementary Material online). Our results suggest that reciprocal translocation is likely to be one of the major forces and future modeling procedures that consider other evolutionary alterations (e.g., genome duplications, chromosome fusion, secondary rearrangements) besides reciprocal translocation may lead to even better congruency ( The Chimpanzee Sequencing and Analysis Consortium 2005 Schubert 2007). Unlike previous studies in which modeling was conducted for individual species and much smaller numbers of species were examined, the current study with empirical data analyses and computer simulations established a benchmark for future evolutionary modeling research in chromosome size.

Simulation using the reciprocal translocation model to test whether it partly explains observed (red line) chromosome-size variations. (A) No constraints on chromosome size. (B) A lower threshold. (C) An upper threshold. (D) Both lower and upper thresholds. Chromosome-size values are not expected to form a single line because the reciprocal translocation model predicts chromosome sizes independently for different total number of chromosomes.

Simulation using the reciprocal translocation model to test whether it partly explains observed (red line) chromosome-size variations. (A) No constraints on chromosome size. (B) A lower threshold. (C) An upper threshold. (D) Both lower and upper thresholds. Chromosome-size values are not expected to form a single line because the reciprocal translocation model predicts chromosome sizes independently for different total number of chromosomes.


Variasi genetik

Reproduksi seksual results in infinite possibilities of genetic variation. In other words, sexual reproduction results in offspring that are genetically unique. They differ from both parents and also from each other. This occurs for a number of reasons.

  • When homologous chromosomes form pairs during prophase I of meiosis I, crossing-over can occur. Crossing-over is the exchange of genetic material between homologous chromosomes. It results in new combinations of genes on each chromosome.
  • When cells divide during meiosis, homologous chromosomes are randomly distributed to daughter cells, and different chromosomes segregate independently of each other. This called is called bermacam-macam independen. It results in gametes that have unique combinations of chromosomes.
  • In sexual reproduction, two gametes unite to produce an offspring. But which two of the millions of possible gametes will it be? This is likely to be a matter of chance. It is obviously another source of genetic variation in offspring. Ini dikenal sebagai random fertilization.

All of these mechanisms working together result in an amazing amount of potential variation. Each human couple, for example, has the potential to produce more than 64 trillion genetically unique children. No wonder we are all different!

Crossing-Over

Crossing-over occurs during prophase I, and it is the exchange of genetic material between non-sister chromatids of homologous chromosomes. Recall during prophase I, homologous chromosomes line up in pairs, gene-for-gene down their entire length, forming a configuration with four chromatids, known as a tetrad. At this point, the chromatids are very close to each other and some material from two chromatids switch chromosomes, that is, the material breaks off and reattaches at the same position on the homologous chromosome (Figure (PageIndex<2>)). This exchange of genetic material can happen many times within the same pair of homologous chromosomes, creating unique combinations of genes. This process is also known as recombination.

Figure (PageIndex<2>):​​​​​ ​​Crossing-over. A maternal strand of DNA is shown in red. A paternal strand of DNA is shown in blue. Crossing over produces two chromosomes that have not previously existed. The process of recombination involves the breakage and rejoining of parental chromosomes (M, F). This results in the generation of novel chromosomes (C1, C2) that share DNA from both parents.

During prophase I, chromosomes condense and become visible inside the nucleus. As the nuclear envelope begins to break down, homologous chromosomes move closer together. The synaptonemal complex, a lattice of proteins between the homologous chromosomes, forms at specific locations, spreading to cover the entire length of the chromosomes. The tight pairing of the homologous chromosomes is called synapsis. In synapsis, the genes on the chromatids of the homologous chromosomes are aligned with each other. The synaptonemal complex also supports the exchange of chromosomal segments between non-sister homologous chromatids in a process called crossing over. The crossover events are the first source of genetic variation produced by meiosis. A single crossover event between homologous non-sister chromatids leads to an exchange of DNA between chromosomes. Following crossover, the synaptonemal complex breaks down and the cohesin connection between homologous pairs is also removed. At the end of prophase I, the pairs are held together only at the chiasmata they are called tetrads because the four sister chromatids of each pair of homologous chromosomes are now visible.

Figure (PageIndex<3>): Crossover between homologous chromosomes Crossover occurs between non-sister chromatids of homologous chromosomes. The result is an exchange of genetic material between homologous chromosomes. This occurs when homologous chromosomes align. Chromatids from each chromosome can cross over and recombine (swap sections). This results in two recombinant chromosomes and two non-recombinant chromosomes.


Translating ecDNA to clinical application

Working closely with Chang, Bafna, and Roel Verhaak of the Jackson Laboratory (also a co-founder of Boundless Bio), we are trying to understand some of the clinical implications of ecDNA. Publicly available databases, including The Cancer Genome Atlas and the Pan-Cancer Analysis of Whole Genomes, contain a large number of whole-genome sequences of cancer samples, yielding a golden opportunity for discovery. We applied the AmpliconArchitect, a tool developed by Bafna that looks for the telltale signs of ecDNA in whole-genome sequencing data, including amplified regions that map to a circle, and then uses algorithms that deconvolute these circular structures. This enabled us to analyze the frequency and potential structural composition of ecDNA in more than 3,200 cancer samples of a wide range of histological types alongside matched whole blood and normal tissue. Our findings indicated that ecDNA is unique to cancer, and that at a minimum, 14 percent of human tumors, including some of the most malignant forms of cancer, harbor ecDNA.

Researchers have been making maps of cancer for a long time, but we now know that we’ve been missing something from our maps.

Further, we found that patients whose cancers have ecDNA have significantly shorter survival than cancer patients whose tumors are driven by lesions in chromosomal DNA. It remains to be seen how commonly ecDNAs play a role in the evolution of drug resistance, as we saw hints of in our initial study. Many other questions remain as well. Recent studies have shed light on how ecDNA may form, although we and others strongly suspect that there may be multiple routes to its development.

The problem of ecDNA in cancer, and the challenge that it represents, has become clear. The National Cancer Institute and Cancer Research UK recently designated ecDNA as one of the Cancer Grand Challenges that must be addressed. It is exciting to see mounting interest and an influx of talented investigators aiming to decipher the key aspects of ecDNA biology. We look forward to the development of new tools, new collaborations, and new treatments for patients.

Joshua Lederberg wrote in his landmark 1952 paper in Physiological Reviews: “I propose plasmid as a generic term for any extrachromosomal hereditary determinant.” In bacteria, circular plasmids are a powerful mechanism for gaining selective advantage because they enable rapid evolution, including drug resistance. Similarly, yeast, weeds, and even parasites can evade drugs and environmental toxins by encoding resistance genes on circular extrachromosomal DNA. ecDNAs may do the same for cancer, providing a potent vehicle for rapid tumor evolution that maximizes critical oncogenic gene variants—or reduces them to evolve drug resistance.

Just as explorers rely on maps of the Earth, and astronomers on maps of the galaxy, cancer biologists depend on maps to navigate the complexities of cancer. We now know that we’d long been missing a critical element. So here we are once again, as physiological cartographers, rolling up our sleeves and making new, topographically informed maps of cancer to help us navigate the multifarious disease and develop new and more effective treatments for patients.

Paul Mischel is a professor and Vice Chair for Research for the Department of Pathology at Stanford University School of Medicine and an Institute Scholar in ChEM-H at Stanford University.