Informasi

Bagaimana konten GC berkembang?

Bagaimana konten GC berkembang?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Latar belakang

Konten GC mengacu pada frekuensi pasangan basa yang merupakan C atau G dalam genom, atau dengan kata lain jumlah pasangan basa GC dibagi dengan penambahan jumlah pasangan basa GC ditambah jumlah pasangan basa AT.

$$GCcontent = frac{N_{GC}}{N_{AT}+N_{GC}}$$

Pertanyaan

Bagaimana konten GC berkembang dan mengapa konten GC berbeda antara populasi/spesies/garis keturunan? Apakah itu berevolusi di bawah pergeseran Genetik saja? Di bawah seleksi? Secara intuitif, saya akan mengatakan bahwa rasio probabilitas bermutasi dari A atau T ke G atau C harus menjadi faktor penting yang mendorong evolusi konten GC. Melakukannya? Apakah tingkat mutasi keseluruhan mempengaruhi konten GC? Sifat/kekuatan lain apa yang memengaruhi evolusi konten GC?


Saya pikir pekerjaan kunci di sini adalah 'berkembang'. Keseluruhan rasio GC/AT berubah oleh mutasi, yang lajunya konstan. Probabilitas yang diberikan peristiwa mutasi bahwa satu basa akan diganti dengan yang lain telah dimodelkan dalam beberapa cara di mana probabilitas mutasi yang berbeda mungkin atau mungkin tidak sama.

Secara keseluruhan konten GC akan cenderung mendekati 50%. Apa yang menyebabkan genom kaya GC menjadi kaya GC (60-70%) adalah bahwa mutasi pada pasangan basa GC memiliki keunggulan selektif baik di wilayah atau di genom secara keseluruhan yang menyebabkan mereka dipertahankan. Tingkat mutasi mungkin tidak berbeda (atau bahkan lebih rendah) pada organisme kaya GC (banyak dari mereka berada jauh di bawah tanah atau di bawah air. Genom kaya GC terjadi karena mutasi AT->GC membawa keuntungan dan mereka bertahan.

Alasan mengapa konten GC bermigrasi dari 50% terbagi dalam dua kategori yang akan saya sebut entropis dan selektif.

Oleh entropis Maksud saya secara khusus bahwa urutan pengkodean untuk gen dan fitur lain seperti situs pengikatan pada DNA atau fitur lain seperti sentromer, yang akan menyebabkan rasio keseluruhan bervariasi dari 1 karena urutan dibatasi oleh informasi yang dikandungnya. Sementara wilayah pengkodean memiliki rasio lebih tinggi dari 1, konten GC cenderung berkisar sekitar 54%. Eukariota memiliki pulau GC dan lain-lain, tetapi ini juga tidak secara keseluruhan mengubah konten GC

Jadi genom kaya gen dan fitur fungsional khas genom tidak benar-benar menjelaskan beberapa kandungan GC yang sangat tinggi yang ditemukan; hingga kisaran 70%. Sementara tautan di atas melihat bias GC di wilayah pengkodean, ini mengingat bahwa setiap bagian dari genom yang hanya merupakan pengatur jarak antara elemen dengan fungsi tertentu akan secara bebas bervariasi ke GC jika berguna.

Selektif faktor untuk konten GC tinggi termasuk lingkungan tekanan dan suhu tinggi misalnya, yang biasanya sangat bias terhadap konten GC tinggi dengan mekanisme ini. Anda dapat membayangkan cara kerjanya: genom konten GC tinggi secara termodinamika lebih stabil dan dapat bertahan dari benturan molekul ekstra energi yang lebih tinggi dari lingkungan tersebut dengan lebih mudah.

Genom kaya GC bukanlah adaptasi sederhana untuk hidup bersama. Semua gen untuk proses berorientasi DNA seperti transkripsi, pengemasan kromosom, DNA polimerase harus banyak menyesuaikan. Ketika organisme beradaptasi dengan suhu yang lebih panas atau tekanan yang lebih tinggi, setiap protein individu yang dihasilkan juga harus berubah menjadi stabil dan berfungsi dalam kondisi baru. Dengan demikian, perubahan ini hanya terjadi selama waktu evolusi yang panjang. Ini mungkin bagian yang baik dari alasan mengapa relung archaea belum digantikan oleh eubacteria dalam 1+ miliar tahun sejak kehidupan ada di Bumi.


GC-konten

GC-konten (atau kandungan guanin-sitosin), dalam biologi molekuler, adalah persentase basa nitrogen pada molekul DNA yang berupa guanin atau sitosin (dari kemungkinan empat yang berbeda, juga termasuk adenin dan timin). [1] Ini mungkin merujuk pada fragmen DNA atau RNA tertentu, atau seluruh genom. Ketika mengacu pada fragmen materi genetik, itu mungkin menunjukkan konten GC dari bagian gen (domain), gen tunggal, kelompok gen (atau kelompok gen) atau bahkan wilayah non-coding. G (guanin) dan C (sitosin) mengalami ikatan hidrogen spesifik sedangkan A (adenin) berikatan spesifik dengan T (timin). Pasangan GC terikat oleh tiga ikatan hidrogen dan AT dipasangkan oleh dua ikatan hidrogen, dan dengan demikian pasangan GC lebih termostabil dibandingkan dengan pasangan AT. [2] Terlepas dari termostabilitas yang lebih tinggi yang diberikan pada materi genetik, diperkirakan bahwa sel-sel dengan DNA GC tinggi mengalami autolisis, sehingga mengurangi umur sel. sendiri. [3] Karena kekokohan yang diberikan pada materi genetik pada organisme GC tinggi, umumnya diyakini bahwa konten GC memainkan peran penting dalam suhu adaptasi, sebuah hipotesis yang baru-baru ini dibantah. [4]

Dalam percobaan PCR, kandungan GC primer digunakan untuk menentukan suhu annealing mereka ke DNA template. Tingkat kandungan GC yang lebih tinggi menunjukkan suhu leleh yang lebih tinggi.

Pengetahuan tambahan yang direkomendasikan

Rentang Penimbangan yang Aman Memastikan Hasil yang Akurat

Pemeriksaan Keseimbangan Visual Harian

Bagaimana Cara Cepat Memeriksa Pipet?


Semua kode Klasifikasi Jurnal Sains (ASJC)

  • APA
  • Pengarang
  • BIBTEX
  • Harvard
  • Standar
  • RIS
  • Vancouver

Hasil penelitian : Kontribusi pada jurnal Artikel peer-review

T1 - Pola evolusi urutan intron di Drosophila tergantung pada panjang dan konten GC.

N2 - LATAR BELAKANG: Intron terdiri dari sebagian besar genom eukariotik, namun sedikit yang diketahui tentang signifikansi fungsionalnya. Elemen pengatur telah dipetakan ke beberapa intron, meskipun ini diyakini hanya menjelaskan sebagian kecil dari DNA intronik lebar genom. Tidak ada pola konsisten yang muncul dari penelitian yang telah menyelidiki tingkat umum kendala evolusioner dalam intron. HASIL: Kami memeriksa hubungan antara panjang intron dan tingkat kendala evolusi dengan menganalisis divergensi antar-spesifik pada 225 fragmen intron di Drosophila melanogaster dan Drosophila simulans, diambil sampelnya dari distribusi panjang intron yang luas. Kami mendokumentasikan korelasi yang sangat negatif antara panjang intron dan divergensi. Menariknya, kami juga menemukan bahwa perbedaan dalam intron berkorelasi negatif dengan konten GC. Hubungan ini tidak memperhitungkan korelasi antara panjang intron dan divergensi, bagaimanapun, dan mungkin hanya mencerminkan variasi lokal dalam tingkat atau bias mutasi. KESIMPULAN: Intron pendek hanya membentuk sebagian kecil dari total DNA intronik dalam genom. Temuan kami bahwa intron panjang berevolusi lebih lambat daripada rata-rata menyiratkan bahwa, sementara mayoritas intron dalam genom Drosophila mungkin mengalami sedikit atau tidak ada batasan selektif, sebagian besar DNA intronik dalam genom kemungkinan akan berkembang di bawah batasan yang cukup besar. Hasil kami menunjukkan bahwa elemen fungsional mungkin ada di mana-mana dalam intron yang lebih panjang dan bahwa intron ini mungkin memiliki peran yang lebih umum dalam mengatur ekspresi gen daripada yang dihargai sebelumnya. Temuan kami bahwa konten GC dan divergensi berkorelasi negatif dalam intron memiliki implikasi penting untuk interpretasi korelasi antara divergensi dan tingkat bias kodon yang diamati di Drosophila.

AB - LATAR BELAKANG: Intron terdiri dari sebagian besar genom eukariotik, namun sedikit yang diketahui tentang signifikansi fungsionalnya. Elemen pengatur telah dipetakan ke beberapa intron, meskipun ini diyakini hanya menjelaskan sebagian kecil dari DNA intronik lebar genom. Tidak ada pola konsisten yang muncul dari penelitian yang telah menyelidiki tingkat umum kendala evolusioner dalam intron. HASIL: Kami memeriksa hubungan antara panjang intron dan tingkat kendala evolusi dengan menganalisis divergensi antar-spesifik pada 225 fragmen intron di Drosophila melanogaster dan Drosophila simulans, diambil sampelnya dari distribusi panjang intron yang luas. Kami mendokumentasikan korelasi yang sangat negatif antara panjang intron dan divergensi. Menariknya, kami juga menemukan bahwa perbedaan dalam intron berkorelasi negatif dengan konten GC. Namun, hubungan ini tidak memperhitungkan korelasi antara panjang intron dan divergensi, dan mungkin hanya mencerminkan variasi lokal dalam tingkat atau bias mutasi. KESIMPULAN: Intron pendek hanya membentuk sebagian kecil dari total DNA intronik dalam genom. Temuan kami bahwa intron panjang berevolusi lebih lambat daripada rata-rata menyiratkan bahwa, sementara mayoritas intron dalam genom Drosophila mungkin mengalami sedikit atau tidak ada batasan selektif, sebagian besar DNA intronik dalam genom kemungkinan akan berkembang di bawah batasan yang cukup besar. Hasil kami menunjukkan bahwa elemen fungsional mungkin ada di mana-mana dalam intron yang lebih panjang dan bahwa intron ini mungkin memiliki peran yang lebih umum dalam mengatur ekspresi gen daripada yang dihargai sebelumnya. Temuan kami bahwa konten GC dan divergensi berkorelasi negatif dalam intron memiliki implikasi penting untuk interpretasi korelasi antara divergensi dan tingkat bias kodon yang diamati di Drosophila.


Hasil dan Diskusi

Tingkat divergensi berkorelasi dengan panjang intron

Kami menyelidiki tingkat divergensi pada total 225 intron (campuran intron pendek lengkap dan beberapa ratus fragmen pasangan basa dari intron yang lebih panjang) yang tersebar di seluruh Drosophila genom. Hubungan antara panjang intron dan divergensi nukleotida untuk semua intron lengkap dan fragmen intron yang disurvei ditunjukkan pada Gambar 1. Korelasi yang sangat negatif antara panjang intron dan divergensi terlihat jelas (koefisien korelasi Spearman R S= -0.388, P < 10 -4 ). Kami juga membagi data menjadi dua kelas ukuran berdasarkan median ukuran intron 86 bp in Drosophila [14] intron kecil (≤86 bp) dan intron besar (>86 bp). Kelas intron besar menunjukkan divergensi yang jauh lebih rendah daripada kelas intron kecil (statistik uji dua sampel Wilcoxon W = 17079.5, P < 10 -4 ). Korelasi antara panjang intron dan divergensi agak lemah, tetapi masih signifikan dalam kelas intron yang lebih panjang (R S= -0.278, P = 0.006).

Hubungan antara panjang intron dan tingkat divergensi antara D. melanogaster dan D. simulasi untuk dataset gabungan dari 225 intron. Korelasi negatif yang signifikan ditemukan untuk semua intron (koefisien korelasi Spearman R S= -0.388, P < 10 -4 ), intron pertama (R S= -0.451, P < 10 -4 ) dan intron bukan pertama (R S= -0.304, P < 10 -4 ).

Telah dicatat bahwa intron yang menyimpan elemen pengatur cenderung menjadi intron pertama [6, 8], dan intron pertama cenderung lebih panjang di Drosophila [17]. Dengan demikian hubungan antara ukuran intron dan divergensi mungkin hanya diharapkan untuk intron pertama [16]. Memang, penelitian sebelumnya telah gagal menemukan bukti kendala di luar intron pertama [16, 18]. Pada Gambar 1, kami menunjukkan bahwa korelasi kuat antara divergensi dan panjang intron tidak spesifik untuk intron pertama (intron pertama R S= -0.451, P < 10 -4 bukan intron pertama R S= -0.304, P < 10 -4 ). Divergensi rata-rata tidak berbeda nyata antara intron pertama dan bukan pertama jika dibandingkan dalam kelas ukuran pendek dan panjang (Tabel 1). Hasil ini menunjukkan bahwa elemen pengatur mungkin cukup umum di semua intron yang lebih panjang sehingga batasannya tidak tergantung pada posisi intron dalam gen.

Meskipun ini adalah bukti kuat untuk kendala evolusi pada intron yang lebih panjang, intron pendek tampaknya tidak berevolusi jauh lebih lambat daripada situs sinonim di Drosophila. Untuk mengilustrasikan hal ini, Gambar 2 menunjukkan perkiraan divergensi rata-rata (dengan dua kesalahan standar) untuk situs sinonim dari 102 daerah pengkodean [19] dibandingkan dengan yang untuk kelas ukuran intron kecil (≤86 bp) dan besar (>86 bp). Perbedaan rata-rata di situs non-sinonim [19] juga ditampilkan untuk perbandingan. Divergensi situs sinonim secara signifikan lebih tinggi daripada tingkat divergensi untuk intron besar (Wilcoxon dua sampel W = 7745.5, P < 10 -4 ) tetapi bukan intron kecil (Wilcoxon dua sampel W = 15115.5, P = 0,617). Temuan ini konsisten dengan kesimpulan Halligan dkk. [9] bahwa intron dan situs sinonim berkembang pada tingkat yang sama, mengingat bahwa dataset mereka berisi beberapa intron panjang. Setengah dari intron dalam genom kurang dari 86 pasangan basa, tetapi ini hanya terdiri dari sekitar 5% dari total DNA intronik dalam genom [14]. Jadi, ironisnya, sementara sebagian besar intron di Drosophila genom mungkin berkembang di bawah sedikit atau tidak ada kendala selektif, sebagian besar DNA intronik dalam genom kemungkinan akan berkembang di bawah kendala yang cukup besar.

Divergensi rata-rata untuk situs non-sinonim, situs sinonim, dan intron kecil dan besar. Rata-rata tingkat divergensi antara D. melanogaster dan D. simulasi untuk situs pengkodean data non-sinonim dan sinonim, intron 86 bp dan intron >86 bp. Bilah kesalahan menunjukkan dua kesalahan standar. Perbedaan situs sinonim secara signifikan lebih besar daripada besar (statistik uji dua sampel Wilcoxon W = 7745.5, P < 10 -4 ) tapi tidak kecil (W = 15115.5, P = 0,6173) divergensi intron. Divergensi intron kecil secara signifikan lebih besar daripada divergensi intron besar (W = 17079.5, P < 10 -4 ).

Divergensi dan komposisi dasar intron

Intron lebih kaya AT daripada situs sinonim di Drosophila [20] (Tabel 1). Bisakah tingkat divergensi yang lebih rendah kemudian menjadi artefak konten GC lokal? Ada hubungan negatif yang signifikan antara divergensi dan konten GC dalam dataset intron (R S= -0.345, P < 10 -4 ) (Gambar 3a), dan hubungan positif yang signifikan antara panjang intron dan konten GC (R S= 0.237, P < 10 -3 ) (Gambar 3b). Koefisien korelasi parsial untuk divergensi versus panjang, yang mengontrol konten GC, adalah -0,132 (95% interval kepercayaan bootstrap: -0,192/-0,089). Korelasi parsial untuk divergensi versus konten GC (mengendalikan panjang) dan konten GC versus panjang (mengendalikan divergensi) masing-masing adalah -0,292 (-0,410/-0,168) dan 0,030 (-0,037/0,120). Hasil ini menunjukkan bahwa hubungan antara panjang intron dan divergensi bukanlah efek pengganggu dari konten GC, meskipun ada korelasi negatif antara divergensi dan konten GC.

Hubungan antara konten GC fragmen intron dan divergensi dan panjang. (A) Hubungan antara konten GC dari fragmen intron dan divergensi antara D. melanogaster dan D. simulasi (Koefisien korelasi spearman R S= -0.345, P < 10 -4 ). (B) Hubungan antara kandungan GC fragmen intron dan panjang intron (R S= 0.237, P < 10 -3 ).

Mirip dengan pola yang kami amati pada intron, hubungan negatif antara tingkat substitusi situs sinonim dan konten GC pada posisi ketiga kodon sebelumnya telah dicatat dalam Drosophila [21] dan pada mamalia [22]. Pola di situs sinonim ini telah dikutip sebagai bukti seleksi untuk bias penggunaan kodon, karena kodon yang disukai biasanya kaya GC [21, 23] namun, pemilihan penggunaan kodon jelas tidak dapat menjelaskan pola yang sama dalam intron. Hubungan negatif antara divergensi dan konten GC dalam intron mungkin mencerminkan variasi lokal dalam tingkat tingkat mutasi atau bias [22, 24], atau efek konversi gen bias yang mendukung GC daripada AT, yang meniru efek seleksi yang mendukung nukleotida GC [25].

Kemungkinan peran bias mutasional dapat diperiksa dengan menggunakan metode berikut. Ini mengikuti dari model standar drift dan mutasi reversibel bahwa, jika AT bermutasi ke GC pada tingkat kamu dan GC bermutasi menjadi AT dengan laju ku frekuensi kesetimbangan GC untuk situs netral (mengabaikan situs polimorfik) diperkirakan oleh P = 1/(1 + k), dan tingkat substitusi ekuilibrium adalah K = 2inggris/(1+k) [26, 27]. Ini menghasilkan hubungan K = 2kamu(1 - P), sehingga tingkat substitusi ekuilibrium berhubungan negatif dan linier dengan konten GC. Rumus ini memprediksi bahwa intersep (divergensi pada konten GC nol) sama dengan nilai absolut kemiringan, sehingga hipotesis ini dapat diuji. Koefisien regresi divergensi pada konten GC dalam dataset lengkap adalah -0,180 (-0,254/-0,106), dan intersep yang sesuai adalah 0,157 (0,115/0,163), yang pada pandangan pertama konsisten dengan hipotesis bahwa variasi tingkat parameter bias mutasi, k, cukup untuk menjelaskan hubungan antara divergensi dan konten GC.

Hubungan antara divergensi dan panjang, bagaimanapun, membuat pengujian di atas bermasalah, mengingat variasi panjang intron yang luas. Jika hanya 127 intron pendek (panjang ≤ 86 bp) yang digunakan, yang panjangnya jauh lebih seragam, regresi divergensi pada konten GC hampir tidak berubah pada -0,116 (-0,207/-0,023), dan intersepnya adalah 0,150 ( 0.142/0.162). Namun perlu diketahui bahwa ada korelasi parsial yang signifikan sebesar 0,166 (0,041/0,345) antara konten GC dan panjang untuk intron pendek, tetapi tidak untuk intron panjang, sehingga masih ada hubungan residual antara panjang dan konten GC pada intron pendek. Meskipun kami tidak dapat mengesampingkan kemungkinan bahwa konversi gen yang bias dan/atau seleksi yang mendukung GC versus AT menjelaskan hubungan antara konten GC dan divergensi, analisis kami menunjukkan bahwa variasi dalam bias mutasi mungkin cukup. Jika proses ini juga menjelaskan hubungan antara divergensi situs sinonim dan konten GC, tes seleksi pada bias kodon berdasarkan korelasi negatif antara bias kodon dan divergensi (baru-baru ini dibahas oleh Bierne dan Eyre-Walker [28] dan Dunn dkk. [29]) kehilangan kekuatannya. Ini telah dikritik dengan alasan teoritis lainnya oleh Eyre-Walker dan Bulmer [26].

Kepadatan elemen fungsional dalam intron

Analisis korelasi sangat menyarankan bahwa intron yang lebih panjang menunjukkan tingkat divergensi yang lebih rendah, dan ini tidak hanya disebabkan oleh perbedaan tingkat mutasi yang terkait dengan konten GC, meskipun sumber lain dari perbedaan tingkat mutasi tentu saja tidak dapat dikesampingkan. Jadi mengapa intron yang lebih panjang dapat dikenakan tingkat kendala yang lebih tinggi? Intron diketahui mengandung elemen pengatur (sebagai contoh, lihat [30, 31], dan lihat [32] untuk tinjauan literatur mamalia baru-baru ini), jadi ada kemungkinan bahwa intron yang lebih panjang lebih dibatasi karena mengandung lebih banyak elemen ini. .

Apakah elemen pengatur yang diduga dalam entitas diskrit intron yang lebih panjang (seperti kelompok situs pengikatan untuk faktor transkripsi), atau apakah fungsi pengaturan ini lebih menyebar? Jika elemen pengatur intronik terjadi dalam kelompok, dikelilingi oleh daerah yang tidak dibatasi, kita mungkin berharap untuk menemukan tingkat divergensi yang lebih tinggi dalam beberapa ratus daerah pasangan basa dari intron yang sangat panjang (seperti yang disurvei di sini), dibandingkan dengan intron berukuran menengah. , asalkan mereka memiliki jumlah total urutan peraturan yang serupa. Alasan untuk ini adalah bahwa, jika elemen pengatur yang dibatasi dikelompokkan ke dalam satu wilayah, fragmen pendek dari intron yang sangat panjang tidak akan mungkin bertepatan secara kebetulan dengan elemen fungsional, sedangkan wilayah berukuran sama dari intron dengan panjang menengah akan lebih mungkin untuk bertepatan. dengan elemen seperti itu. Pengelompokan seperti itu dimungkinkan, mengingat situs pengikatan faktor transkripsi dan elemen pengatur dapat berkisar dari beberapa pasangan basa hingga beberapa ratus pasangan basa (sebagai contoh, lihat [33-36]). Namun, jika proporsi urutan pengaturan serupa dalam intron panjang dan menengah, tidak ada perbedaan dalam perbedaan rata-rata yang diharapkan, tetapi pengelompokan akan menyebabkan perbedaan yang lebih tinggi dalam perbedaan dalam intron yang sangat panjang versus panjang sedang (setelah menghilangkan varians sampling binomial). Namun, jika elemen pengatur dalam intron tersebar luas, tidak ada alasan untuk mengharapkan cara atau varians divergensi yang lebih besar dalam fragmen dari intron yang sangat panjang. Bahkan, divergensi rata-rata untuk sejumlah kecil fragmen intron dari intron yang lebih panjang dari 4.500 bp adalah 0,054 (SE = 0,004, n = 9). Ini secara signifikan lebih kecil daripada kelas intron kecil (≤86 bp) (divergensi rata-rata = 0,110, n = 127, dua sampel Wilcoxon W = 252, P = 0,001) dan secara signifikan lebih rendah daripada intron ukuran menengah (antara 87 bp dan 4.500 bp: mean divergence = 0,072, n = 89, W = 4494, P = 0,044). Standar deviasi non-binomial dalam divergensi diperkirakan 0,0056 untuk intron yang sangat panjang, dibandingkan dengan 0,023 untuk 38 intron berukuran menengah yang fragmennya setidaknya 20 bp lebih pendek dari intron yang digunakan untuk memperkirakan divergensi (ini memastikan bahwa keduanya kelas mewakili sampel daripada urutan lengkap). Ini adalah pola yang berlawanan dengan apa yang diharapkan dengan pengelompokan urutan peraturan yang kuat. Tingkat kendala, dan dengan demikian kepadatan elemen regulasi diduga fungsional, oleh karena itu tampaknya relatif seragam di intron yang lebih panjang.

Kepadatan fungsi regulasi yang seragam tidak terduga jika ini sering melibatkan kelompok, misalnya, situs pengikatan faktor transkripsi. Namun, mungkin diharapkan, misalnya, jika fungsi pengaturan intron sering melibatkan pembentukan struktur sekunder yang kompleks. Bukti yang menunjukkan bahwa urutan dan panjang intron mempengaruhi struktur sekunder prekursor messenger RNA (pre-mRNA) terakumulasi. Jika struktur sekunder ini memainkan peran pengaturan, kemungkinan besar akan dilestarikan. Beberapa penelitian telah menemukan bukti untuk seleksi epistatik pada intron untuk mempertahankan struktur sekunder pra-mRNA [37-39], dan ada juga bukti untuk peran fungsional struktur sekunder RNA dalam penyambungan [40, 41] dan ekspresi gen [42, 43 ]. Misalnya, Chen dan Stephan [44] menemukan bahwa mutasi mengganggu struktur jepit rambut di intron 1 dari D. melanogaster Adho gen mengurangi efisiensi penyambungan dan menurunkan produksi adh protein. Para penulis ini menunjukkan bahwa mutasi kompensasi yang mengembalikan struktur sekunder menghasilkan mutan yang tidak dapat dibedakan dari tipe liar dalam efisiensi penyambungan dan produksi protein. Struktur jepit rambut di intron kedua gen ini juga menunjukkan konservasi struktural yang mencolok di sepuluh spesies dalam tiga sub-genera Drosophila [45]. Temuan kami bahwa kepadatan sekuens terbatas tampaknya tidak menjadi fungsi dari panjang intron (dalam kelas intron yang panjang) menunjukkan bahwa struktur sekunder pra-mRNA mungkin merupakan mekanisme yang lebih umum yang memediasi regulasi gen daripada elemen regulasi diskrit seperti peningkat transkripsi intronik. .


Pengantar

Genomik komparatif adalah kunci mendasar untuk cara kerja genom. Identifikasi gen dan elemen fungsional lainnya seperti daerah pengatur, serta pemahaman pengaruhnya terhadap kebugaran organisme pada dasarnya bergantung pada deteksi tanda seleksi alam dalam genom [1]. Dalam hal itu, merancang model evolusi urutan tanpa adanya kendala selektif (model netral) sangat penting untuk mendeteksi urutan fungsional. Memang, untuk menjelaskan fitur segmen genom tertentu, membandingkan kecocokan model netral dengan model yang juga memanggil seleksi (baik pemurnian atau positif) adalah cara operasional untuk menyimpulkan kendala evolusioner dan karenanya berfungsi.

Komposisi dasar sekuens genom sangat bervariasi, baik antar spesies maupun sepanjang kromosom [2,3]. Misalnya, kandungan GC genomik organisme seluler berkisar dari 13% hingga sekitar 75% [4,5], dengan heterogenitas intra-genomik yang luas. Variasi skala besar dalam komposisi basa ini mempengaruhi semua bagian genom, daerah intergenik, dan gen—termasuk ketiga posisi kodon [6]—dan karenanya tidak dapat dijelaskan secara sederhana dengan batasan selektif pada protein yang dikodekan. Menentukan penyebab yang mendasari (selektif atau netral) dari variasi konten GC ini adalah masalah utama dalam genetika: jika mereka hasil dari seleksi, ini menyiratkan bahwa komposisi dasar genom sendiri adalah sifat penting yang berkontribusi pada kebugaran organisme sebaliknya, jika "lanskap genom" ini sebagian besar dibentuk oleh proses molekuler non-adaptif, maka mengkarakterisasi proses ini sangat penting untuk deteksi seleksi yang andal (lihat misalnya [7]).

Pada mamalia, analisis data polimorfisme dan pola substitusi di sepanjang genom menunjukkan bahwa evolusi konten GC didorong oleh rekombinasi, yang cenderung meningkatkan kemungkinan fiksasi mutasi AT→GC [8,9]. Dampak rekombinasi pada komposisi basa dalam genom ini kemungkinan besar disebabkan oleh fenomena yang dikenal sebagai konversi gen bias GC (gBGC), yang mendukung nukleotida G/C di situs polimorfik dalam konversi zat antara rekombinasi (lihat ulasan di [10] ]). Meskipun gBGC sebagai proses tidak terkait dengan seleksi alam, hal itu mempengaruhi kemungkinan fiksasi alel dalam pola yang mirip dengan seleksi [11]. Telah terbukti menjadi faktor perancu yang penting, yang dapat meniru beberapa tanda seleksi positif [7,12] dan mengganggu seleksi dengan secara aktif mempromosikan fiksasi alel yang merusak [13,14]. Proses gBGC telah diamati secara langsung pada produk meiosis dari ragi dan manusia [15,16], dan ada banyak bukti, berdasarkan analisis hubungan antara tingkat rekombinasi dan pola substitusi dalam genom, bahwa proses ini mempengaruhi banyak eukariota lainnya [ 17–19].

Dalam Bakteri dan Archaea, beberapa faktor lingkungan yang berpotensi mempengaruhi kandungan GC genom telah diusulkan (seperti ketersediaan oksigen atau nitrogen di lingkungan, suhu pertumbuhan, atau variasi lingkungan yang dihadapi oleh suatu organisme, lihat misalnya [20] dan ref. didalamnya). Karena efek ini lemah dan sifat dari tekanan selektif tetap sulit dipahami, kekuatan utama yang mendorong konten GC genomik telah lama dianggap sebagai bias mutasional [21]. Namun baru-baru ini, dua analisis independen telah menunjukkan bahwa di hampir semua Bakteri, terlepas dari kandungan GC genomnya, ada kelebihan mutasi G/C→A/T [22,23]. Ini menunjukkan bahwa proses yang tidak diketahui, selektif atau netral, menentang bias mutasi universal ini dengan mendukung fiksasi alel G/C Sebelumnya, analisis sejumlah besar E. coli genom telah menyarankan kemungkinan peran gBGC, berdasarkan hubungan antara GC-konten, rekombinasi dan organisasi kromosom dalam spesies ini [24]. Namun Hildebrand et al. [23] mengamati bahwa kelebihan mutasi G/C→A/T masih ada setelah menghapus kumpulan data dengan bukti rekombinasi. Selain itu, mereka tidak menemukan korelasi antara kandungan GC dan tingkat rekombinasi lintas spesies bakteri. Oleh karena itu mereka menyimpulkan bahwa gaya ini tidak mungkin gBGC dan karenanya seleksi itu mendorong peningkatan GC genomik pada Bakteri. Sifat keuntungan selektif ini tetap misterius, meskipun berbagai hipotesis telah diajukan [25,26].

Di sini kami berpendapat bahwa analisis yang dilakukan oleh Hildebrand et al. [23] tidak konklusif mengenai hipotesis gBGC, dan kami menyajikan bukti bahwa variasi konten GC yang diamati pada Bakteri dipengaruhi oleh gBGC. Salah satu ciri khas gBGC yang meresap adalah bahwa daerah genomik yang mengalami tingkat rekombinasi tinggi juga akan memperoleh konten GC yang tinggi [6]. Dengan demikian kami mempelajari hubungan antara rekombinasi dan konten GC dalam 20 kelompok Bakteri dan satu kelompok Archaea. Dataset ini mencakup berbagai clade yang mewakili keragaman bakteri. Untuk menghindari masalah yang melekat pada perbandingan tingkat rekombinasi di antara spesies (seperti perbedaan dalam polimorfisme, sampel genom, ukuran populasi, tingkat mutasi, faktor riwayat kehidupan lainnya), kami memeriksa variabilitas intragenomik untuk rekombinasi dan konten GC.

Kami menunjukkan bahwa dalam berbagai spesies bakteri, gen dengan bukti rekombinasi memiliki kandungan GC yang lebih tinggi. Kami selanjutnya menunjukkan bahwa bias terhadap nukleotida G/C dalam gen rekombinasi ini tidak dapat dijelaskan dengan pemilihan penggunaan kodon, dan dapat mengganggu pemilihan kodon optimal akhiran AT. Kedua pengamatan ini sangat menyarankan bahwa rekombinasi homolog, melalui gBGC, merupakan faktor penting yang secara universal mempengaruhi kandungan nukleotida gen dan genom. Jika dikonfirmasi, gBGC dapat menjelaskan beberapa fitur genom bakteri yang meresap namun tidak dapat dijelaskan. Akhirnya, kami menekankan bahwa karena gBGC memiliki kemampuan untuk meniru dan mengganggu seleksi alam, gBGC harus dipertimbangkan oleh studi masa depan yang diarahkan untuk memahami proses yang mendorong evolusi genom bakteri.


Metode

Isi GC dan isi DNA 2C diukur menggunakan flow cytometry pada 239 spesies yang mencakup semua 11 ordo dan 70 dari 78 famili monokotil yang saat ini dikenal (40) (Gbr. S2 dan Dataset S1, Tabel S1). Pengukuran konten GC didasarkan pada perbandingan fluoresensi inti yang diwarnai dengan dua fluorokrom yang berbeda [DNA interkalasi propidium iodida (mengukur ukuran genom 2C absolut) dan DAPI selektif AT (mengukur fraksi AT genom)] menggunakan protokol oleh marda dkk. (14, 15). Jumlah kromosom untuk spesies yang diukur diambil dari literatur atau diperkirakan oleh kami dalam 16 spesies (Dataset S1, Tabel S1) untuk memungkinkan penghitungan ukuran genom monoploid (1Cx) (1Cx = 2C ukuran genom dibagi dengan tingkat ploidal) (65 ). Data tentang ciri-ciri sejarah kehidupan penting yang dipilih secara biologis (bentuk kehidupan, strategi penyerbukan, dan sensitivitas pengeringan serbuk sari) serta informasi tentang distribusi spesies dan preferensi habitatnya (termasuk distribusi geografis di benua, luas area distribusi, keberadaan dalam bioma, persyaratan kelembaban, atau kemampuan untuk tumbuh di habitat terbuka yang terpapar sinar matahari) dikumpulkan dari flora dan literatur taksonomi yang tersedia (Dataset S1, Tabel S2). Data distribusi geografis diambil dari portal Fasilitas Informasi Keanekaragaman Hayati Global (www.gbif.org) dan Basis Data Bunga Nasional Afrika Selatan (http://bgis.sanbi.org). Data geografis disampel ulang menggunakan algoritme stratifikasi data spasial baru berdasarkan resampling acak yang dibatasi heterogenitas (66), yang dirancang untuk menghilangkan efek pengambilan sampel data yang tidak merata (Metode SI, Kumpulan Data S2, dan Gambar S5). Sembilan belas variabel bioklimatik dan ketinggian diekstraksi untuk setiap lokasi yang dipilih dari database WorldClim (67) (Dataset S1, Tabel S2).

Pohon filogenetik untuk semua taksa yang diukur, kecuali rumput, diperoleh dengan memangkas filogeni angiosperma skala besar baru-baru ini oleh Zanne et al. (49) (Gbr. 1, Metode SI, dan Gambar. S1 dan S3). Filogeni ini mengandung langsung 70% spesies yang dipelajari, sedangkan banyak spesies yang tersisa yang dipelajari oleh kami cukup terkait erat dengan spesies yang dipelajari oleh Zanne et al. (49) bahwa yang terakhir dapat digunakan sebagai pengganti spesies kita untuk memberikan wawasan tentang hubungan filogenetik mereka. Untuk rumput, kami mengadopsi pohon filogenetik dari Grass Phylogeny Working Group II (37) dan menggunakan penanggalan kemungkinan maksimum dengan dua titik kalibrasi fosil (Dataset S3). Episode signifikan dalam evolusi konten GC dan ukuran genom terdeteksi pada pohon menggunakan kuadrat terkecil umum dan nilai ujung pengacakan reshuffle dihitung menggunakan paket kera (68) di R (69) (Gbr. 1 dan Gbr. S1, S3, dan S4, dan Kumpulan Data S4). Kami membandingkan konten GC dengan ukuran genom, ciri-ciri riwayat hidup, dan data ceruk iklim dengan menerapkan regresi berganda menggunakan kuadrat terkecil umum filogenetik yang dihitung dalam paket caper R (70) dan membangun model penjelas untuk variasi konten GC, termasuk enam variabel yang tidak berlebihan ( Tabel 1). Untuk perhitungan, kami menggunakan persentil variabel iklim yang berbeda (10, 25, 50, 75, dan 90) untuk memperhitungkan kontrol multifaktor dari kemunculan spesies menggunakan logika pengujian yang sama seperti dalam regresi kuantil. Metode lengkap dan referensi terkait disertakan dalam Metode SI.


Metode

Penjajaran

To construct genomic human/chimpanzee/baboon alignments, we retrieved large (≥20 kb) chimpanzee and baboon (i.e., Pan and Papio species) DNA sequences (respectively 291 and 233) from GenBank (Rel. 133, February 2003). We conducted a similarity search against human chromosomes (Ensembl, release 8.3) using Megablast to roughly map chimpanzee and baboon sequences on their orthologous loci. We then used human/chimpanzee and human/baboon pairwise alignments computed by MGA ( Holn, Kurtz, and Ohlebusch 2002) to generate an accurate mapping, which enabled us to identify potential triple alignments. Finally, the alignments were generated using ClustalW, and they comprised a total of 14.3 Mb of orthologous sites distributed on 12 human autosomes. More details on the methodology and the aligments are available at http://pbil.univ-lyon1.fr/datasets/MeunierDuret2004/data.html and in the Supplementary Infomation section.

Recombination Rate

The rates of crossover in the human genome were taken from Kong et al. (2002). The average recombination rates in mouse chromosomes were computed from the Whitehead Mouse Genetic Map URL: http://carbon.wi.mit.edu:8000/cgi-bin/mouse/index#genetic.

Inferring Substitution Rates

Substitutions were inferred in human and chimpanzee lineages using unweighted parsimony on informative sites, with the baboon as outgroup. In our analyses, we only considered substitutions occurring in noncoding regions (as defined by Ensembl annotations). It is known that because of multiple substitutions, parsimony may be misleading. Given the evolutionary distances considered here, only hyper-mutable 5′-CpG-3′ dinucleotides (hereafter noted CpG) are expected to generate homoplasy. We therefore considered three classes of sites: (1) sites not immediately preceded by a C in 5′ or followed by a G in 3′ in any of the human, chimpanzee, or baboon sequences—i.e., sites that are expected never to have been part of a CpG doublet since the last common ancestor of the three species (CpG-free sites) (2) sites for which the ancestral human/chimpanzee state inferred by parsimony was part of a CpG (CpG-anc sites) (3) other sites. All simulations (see below) revealed that (1) sites that we inferred as CpG-free truly evolved without being part of a CpG (2) sites that we inferred as CpG-anc were truly part of an ancestral CpG before the human/chimpanzee split (3) all substitution rates could be accurately estimated on CpG-free and CpG-anc sites, simply by dividing the number of observed changes by the number of inferred ancestral sites (rate estimation errors ≤3%). Using the first site category, we inferred by parsimony six rates (pooling together complementary rates): 4 transversion rates (A → T + T → A, G → C + C → G, A → C + T → G, C → A + G → T) and 2 transition rates (G → A + C → T, A → G + T → C. The transition rate at CpG sites (C → T + G → A) was estimated using the second site category. For better rate estimates, we pooled substitutions in human and chimpanzee lineages.

Simulations

We checked the quality of parsimony inferences on the three classes of sites by performing simulations with the following parameters: ratio transition over transversion: 2.75 increase of the transition rate in CpG: ×10 human/chimpanzee divergence: 1% human/baboon divergence: 5%. Simulations were driven as follows: we first let a sequence evolve until each site experienced an average of 10 substitutions (i.e., to reach equilibrium), using 0.36, 0.42, and 0.52 as GC-bias values we then simulated the sequence evolution on the human/chimpanzee/baboon phylogenetic tree topology either leaving the GC-bias value unchanged or setting it to 0.35 (i.e., mimicking a non-equilibrium situation).

We also used simulations to estimate the time needed to reach the equilibrium GC-content. As above, we started with sequences at equilibrium (initial GC-content: GCSaya), and then changed the GC-bias parameter and let sequences evolve until they reach their new equilibrium (GCn). We plotted the GC-content as a function of the number of substitutions (d), and we measured on this graph the value d1/2 corresponding to half of the distance between GCSaya dan GCn. We repeated simulations for different values of GCSaya (0.35, 0.40, 0.45, 0.50, and 0.55), and of GCn (0.35 or 0.40), similar to that observed in our data. The average value of d1/2 was 0.75 substitutions per site (varying from 0.7 to 0.8, depending on the values of GCSaya dan GCn). Given the per-year substitution rate observed between human and chimpanzee, this value of d1/2 corresponds approximatively to 750 Myr.

Analysis of Regional Substitution Patterns

Human autosomal chromosomes were divided into 1 Mb non-overlapping windows (referred to as loci). A locus was retained for the analysis only if (1) it was associated with a marker from the genetic map (if a locus was associated with more than one marker, we used the mean crossover rate value for the analysis) (2) it contained alignments with more than 100 AT ↔ GC (i.e., from A or T to G or C or the opposite) substitutions in human and chimpanzee lineages (3) AT → GC (i.e., from A or T to G or C) and GC → AT substitution distributions presented no significant difference among both lineages (Fisher exact test, P > 0.05). A total of 33 loci were finally selected for the analysis, with a mean of 1,743 inferred AT ↔ GC substitutions in human and chimpanzee lineages. It is possible to compute the GC-content toward which a sequence is evolving, given its present substitution pattern (the equilibrium GC-content, hereafter denoted as GC*). GC* is generally computed by using the model proposed by Sueoka (1962): under the assumption that all sites within a sequence evolve independently of each other, then GC* should converge to kamu/(kamu + v), di mana kamu dan v are, respectively, the AT → GC and GC → AT substitution rates. This assumption is, however, not valid in vertebrates, where it is known that the rate of mutation of a given base depends on the nature of its neighboring bases, essentially because of the hypermutability effects of CpG dinucleotides (Arndt, Petrov, and Hwa 2003). We therefore used the seven substitution rates described above as input to derive GC* using the sequence evolution model of Arndt, Burge, and Hwa (2003), which takes into account not only the different transversion and transition rates, but also the high transition rate at CpG dinucleotides. The error in GC* estimates resulting from the use of parsimony appeared negligible in all our simulations (less than 1% error).


Bahan dan metode

Bacterial Genomes

Complete genomes of Lactobacillus species as of 1 January 2015 were retrieved from the National Center for Biotechnology Information (NCBI) and additional L. kunkeei genomes were added from ( Ellegaard et al. 2015 Tamarit et al. 2015). NS Bifidobacterium data set comprised the diversity of species with complete genomes deposited at NCBI as of May 2014 and was completed with B. asteroids dan B. coryneforme genomes from ( Ellegaard et al. 2015). Semua Lactobacillus genomes used for the initial phylogeny are shown in supplementary fig. S1 , Supplementary Material online. Semua Lactobacillus dan Bifidobacterium genomes used for the codon usage analyses are listed in supplementary table S1 , Supplementary Material online.

Phylogenetic Analyses

Untuk setiap Lactobacillus genome, all annotated proteins shorter than 50 amino acids were filtered out, and an all-against-all BLAST comparison was done using an E-value cutoff of 1e-05 ( Altschul et al. 1990). NS Lactobacillus proteome was classified into protein families using OrthoMcl, using an inflation parameter value of 1.5 ( Li et al. 2003). Of these, 54 protein families contained a single protein from each one of the 135 taxa. The 54 single-copy panorthologs were individually aligned with Mafft-linsi ( Katoh et al. 2002, 2005), trimmed for all positions with over 50% gaps with trimAl ( Capella-Gutierrez et al. 2009), and concatenated using a custom perl script. The phylogeny was inferred using RAxML (Randomized Axelerated Maximum Likelihood) with the PROTCATLG model and 100 bootstrap pseudoreplicates ( Stamatakis 2006). A reduced data set of 34 genomes from the Lactobacillaceae and Leuconostocaceae families was selected for codon usage analysis. The 54 single-copy panorthologs from the reduced set of taxa were aligned with Probcons ( Do et al. 2005) and trimmed with BMGE ( Criscuolo and Gribaldo 2010) with default parameters. A tree was inferred using RAxML with the PROTGAMMALG model and 100 bootstrap pseudoreplicates. NS Bifidobacterium data set was treated similarly: OrthoMcl was first used to detect 400 single-copy panorthologs, which were then aligned with Mafft-linsi ( Katoh et al. 2005), trimmed for positions with over 50% gaps, and concatenated with local perl scripts. A tree was then reconstructed with RAxML as before.

Codon Usage Analysis and Genome Statistics

Genome statistics, including GC content, GC3s and Nc, and correspondence analyses were calculated with the aid of the software CodonW ( Peden 1999). The Nc values were calculated based on the GC3s values by the method defined by Wright, as Nc expect = 2 + GC3s + 29/(GC3s + (1−GC3s) 2 ) ( Wright 1990 Chen 2013). The codon usage index (CAI) was calculated by CAI and cusp function from EMBOSS package ( Rice et al. 2000). The relative synonymous codon usage (RSCU) values were calculated using the program GCUA (General Codon Usage Analysis) ( McInerney 1998). The strength of selected codon usage bias was estimated from the S index, which is used as a proxy for translational selection on individual genomes ( Sharp et al. 2005, 2010). The number of tRNA genes and the inference of anti-codons were made with the aid of tRNAscan-SE 1.3.1 ( Lowe and Eddy 1997). Other statistics, including length of CDS and nucleotide position within the genome, were calculated from Genbank or annotation files using Perl and R scripts.

The genes in each data set were categorized into highly expressed and all genes ( Sharp et al. 2005). The highly expressed genes were defined as in ( Sharp et al. 2005), and included genes for translation elongation factor Tu, Ts and G, and 37 large ribosomal proteins, including rplA-rplF, rplI-rplT dan rpsB-rpsT, whereas the all genes data set included all genes in the genome. Codons used significantly more or less frequently in the highly expressed gene data set compared with the whole genome data set (chi-squared test, cutoff P = 0.01) were defined as optimal (+) and nonoptimal (−) codons according to the Ribosomal Protein (RP) method. Optimal codons were also predicted by the correlative test ( Hershberg and Petrov 2009). In this test, the Nc value for each gene was plotted against the RSCU value for each codon and, for each amino acid, and the codons showing the strongest negative correlation with high significance (P < 0.05/number of codons in the codon family) were inferred to represent the optimal codons. Untuk G. vaginalis, L. delbrueckii dan L. fermentum, we also identified optimal codons by testing the correlation between the RSCU values and Nc′ values, with Nc′ values calculated using the ENCprime package ( Novembre 2002).

For the Akashi test (1994), we extracted single copy panorthologs genes from ( Ellegaard et al. 2015 Tamarit et al. 2015). The extracted data set included 400 genes from the Bifidobacterium species and 302 genes from Lactobacillus jenis. Amino acid sequence alignments were built with MAFFT-linsi ( Katoh et al. 2002), and then backtranslated to nucleotide sequence alignments. For the identification of conserved and variable sites, we used A. phenanthrenivorans as the reference species for G. vaginalis dan S. pyogenes as the reference species for L. delbrueckii dan L. fermentum. Conserved sites were defined as codon sites that code for the same amino acid as the sequence in the reference genome, and variable sites as codon sites in the alignment that code for different amino acids. For the implementation of the Akashi’s test (1994), we used the procedure described on the website “http://drummond.openwetware.org/Akashi’s_Test.html”. It is suggested that the Akahi’s test is implemented using the Mantel–Haenszel test in the open-source statistical package R. However, we realized that the test in R is not appropriate because it does not distinguish positive from negative signs. Instead, we followed the procedure exactly as detailed on the website.

Species-Specific Genes

The species-specific proteins were obtained by analysing the output of the bifidobacterial orthoMcl reconstruction ( Ellegaard et al. 2015), and the 135-genomes Lactobacillus orthoMcl reconstruction. The species-specific genes were defined as the singletons in these reconstructions, plus all proteins present in clusters with no other species from the ingroup. These proteins were used as queries in BLASTP searches against the Non-redundant database (NR), using an E-value cutoff of 1e-03. All genes yielding more hits to other species within the ingroup than to foreign genera within the best 50 hits were discarded. Hits from the same species as the query were filtered out as self hits, as were also hits from closely related species with similar GC content, such as the Lactobacillus jenis L. panis, L. oris, L. vaginalis, L. antri, L. frumenti dan L. pontis, in the case of L. reuteri ( Vogel et al. 1994 Felis and Dellaglio 2007) L. equicursoris in the case of L. delbrueckii ( Morita et al. 2010) and L. hakayitensis in the case of L. salivarius ( Morita et al. 2007).

In the initial search, the species-specific genes of G. vaginalis yielded numerous hits to Chlamydia trachomatis. These hits originated from sequencing projects published by the Sanger Institute on 10 March 2015 in NCBI. The samples were claimed to represent C. trachomatis genomes, but contained several thousand contigs and several thousand genes. Phylogenetic inferences based on all recruited BLAST hits showed that the identified C. trachomatis sequences clustered inside the G. vaginalis clade, and that they were never represented by more than one or two sequences. In order to assess whether these C. trachomatis genomes were contaminated with G. vaginalis, we blasted the contigs of seven genomes against all 119 Klamidia complete genomes (of which 88 belong to C. trachomatis) and 4 G. vaginalis complete genomes found in NCBI at 20 November 2015. The seven genomes had between 3 and 1,110 contigs with best BLASTn hits to the Gardnerella rather than the Klamidia genom. Therefore, we concluded that these hits came from metagenomes formed by contaminations or co-infections with G. vaginalis, and were filtered out as self-hits. The next best 250 hits were retrieved with the aid of a tBLASTn search (E < 1e-05). The sequences of the hits were retrieved and their GC3s values were calculated using CodonW ( Peden 1999).


Perilaku Hewan

Apakah Anda pernah melihat seekor anjing duduk di atas perintah? Pernahkah Anda melihat kucing mencoba menangkap tikus? Ini hanyalah dua contoh dari banyak perilaku hewan. Satwa perilaku mencakup semua cara hewan berinteraksi satu sama lain dan lingkungan. Contoh perilaku hewan yang umum digambarkan dalam Angka di bawah.

Examples of Animal Behavior. Can you think of other examples of animal behavior besides the three shown here?

Cabang biologi yang mempelajari tingkah laku hewan disebut etologi. Ahli etologi biasanya mempelajari bagaimana hewan berperilaku di lingkungan alami mereka, bukan di laboratorium. Mereka umumnya mencoba menjawab empat pertanyaan dasar tentang perilaku yang mereka amati:

  1. Apa yang menyebabkan perilaku tersebut? Apakah yang rangsangan, atau pemicu, untuk perilaku tersebut? Apa struktur dan fungsi hewan yang terlibat dalam perilaku?
  2. Bagaimana perilaku berkembang? Apakah itu hadir di awal kehidupan? Atau apakah itu hanya muncul saat hewan itu dewasa? Apakah pengalaman tertentu diperlukan untuk mengembangkan perilaku?
  3. Why did the behavior evolve? How does the behavior affect the fitness of the animal performing it? How does it affect the survival of the species?
  4. How did the behavior evolve? How does it compare with similar behaviors in related species? In what ancestor did the behavior first appear?

Patterns of intron sequence evolution in Drosophila are dependent upon length and GC content

Latar belakang: Introns comprise a large fraction of eukaryotic genomes, yet little is known about their functional significance. Regulatory elements have been mapped to some introns, though these are believed to account for only a small fraction of genome wide intronic DNA. No consistent patterns have emerged from studies that have investigated general levels of evolutionary constraint in introns.

Hasil: We examine the relationship between intron length and levels of evolutionary constraint by analyzing inter-specific divergence at 225 intron fragments in Drosophila melanogaster and Drosophila simulans, sampled from a broad distribution of intron lengths. We document a strongly negative correlation between intron length and divergence. Interestingly, we also find that divergence in introns is negatively correlated with GC content. This relationship does not account for the correlation between intron length and divergence, however, and may simply reflect local variation in mutational rates or biases.

Kesimpulan: Short introns make up only a small fraction of total intronic DNA in the genome. Our finding that long introns evolve more slowly than average implies that, while the majority of introns in the Drosophila genome may experience little or no selective constraint, most intronic DNA in the genome is likely to be evolving under considerable constraint. Our results suggest that functional elements may be ubiquitous within longer introns and that these introns may have a more general role in regulating gene expression than previously appreciated. Our finding that GC content and divergence are negatively correlated in introns has important implications for the interpretation of the correlation between divergence and levels of codon bias observed in Drosophila.


Tonton videonya: 5 KESALAHAN YOUTUBER PEMULA BIKIN CHANNEL GAK BERKEMBANG (Oktober 2022).