Informasi

21.1: Jaringan Regulasi- Inferensi, Analisis, Aplikasi - Biologi

21.1: Jaringan Regulasi- Inferensi, Analisis, Aplikasi - Biologi


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Sistem kehidupan terdiri dari beberapa lapisan yang mengkodekan informasi tentang sistem. Lapisan utama adalah:

1. Epigenom: Ditentukan oleh konfigurasi kromatin. Struktur kromatin didasarkan pada cara histon mengatur DNA. DNA dibagi menjadi nukleosom dan daerah bebas nukleosom, membentuk bentuk akhirnya dan mempengaruhi ekspresi gen.

  1. Genom: Termasuk pengkodean dan non-pengkodean DNA. Gen yang ditentukan oleh pengkodean DNA digunakan untuk membangun RNA, dan elemen pengatur Cis mengatur ekspresi gen ini.
  2. RNA transkriptom (mis. mRNA, miRNA, ncRNA, piRNA) ditranskripsi dari DNA. Mereka memiliki fungsi pengaturan dan memproduksi protein.
  3. Proteom Terdiri dari protein. Ini termasuk faktor transkripsi, protein pensinyalan, dan enzim metabolik.

Interaksi antara komponen-komponen ini semuanya berbeda, tetapi memahaminya dapat menempatkan bagian-bagian tertentu dari sistem ke dalam konteks keseluruhan. Untuk menemukan hubungan dan interaksi di dalam dan di antara lapisan, kita dapat menggunakan jaringan.

Memperkenalkan Jaringan Biologis

Jaringan biologis tersusun sebagai berikut:
Jaring Regulasi – seperangkat interaksi regulasi dalam suatu organisme.

  • Node adalah regulator (misalnya faktor transkripsi) dan target terkait.
  • Tepi sesuai dengan interaksi regulasi, diarahkan dari faktor regulasi ke targetnya. Mereka ditandatangani sesuai dengan efek positif atau negatif dan berbobot sesuai dengan kekuatan reaksi.

Jaringan Metabolik - Menghubungkan proses metabolisme. Ada beberapa fleksibilitas dalam representasi, tetapi contohnya adalah grafik yang menampilkan produk metabolisme bersama antara enzim.

  • Node adalah enzim.
  • Tepi sesuai dengan reaksi pengaturan, dan diberi bobot sesuai dengan kekuatan reaksi.

Jaringan Sinyal – mewakili jalur sinyal biologis.

  • Node adalah protein yang disebut reseptor sinyal.
  • Tepi ditransmisikan dan diterima sinyal biologis, diarahkan dari pemancar ke penerima.

Protein Bersih – menampilkan interaksi fisik antar protein.

• Node adalah protein individu.

• Tepi adalah interaksi fisik antara protein.

Jaringan Ekspresi Bersama – menjelaskan fungsi ko-ekspresi antar gen. Cukup umum; mewakili jaringan interaksi fungsional daripada fisik, tidak seperti jenis jaring lainnya. Alat yang ampuh dalam analisis komputasi data biologis.

• Node adalah gen individu.
• Tepi adalah hubungan ekspresi bersama.

Hari ini, kami akan fokus secara eksklusif pada jaringan regulasi. Jaringan pengatur mengontrol ekspresi gen spesifik konteks, dan dengan demikian memiliki banyak kendali atas pengembangan. Mereka layak dipelajari karena mereka rentan terhadap kerusakan dan menyebabkan penyakit.

Interaksi Antar Jaringan Biologis

Jaringan biologis individu (yaitu, lapisan) sendiri dapat dianggap sebagai node dalam jaringan yang lebih besar yang mewakili seluruh sistem biologis. Kita dapat, misalnya, memiliki jaringan pensinyalan yang merasakan lingkungan yang mengatur ekspresi faktor transkripsi. Dalam contoh ini, jaringan akan menampilkan bahwa TF mengatur ekspresi protein, protein dapat berperan sebagai enzim dalam jalur metabolisme, dan seterusnya.

Jalur umum pertukaran informasi antara jaringan ini ditunjukkan pada Gambar 21.4.

Mempelajari Jaringan Regulasi

Secara umum, jaringan digunakan untuk mewakili ketergantungan antar variabel. Ketergantungan struktural dapat diwakili oleh kehadiran tepi antara node - dengan demikian, node yang tidak terhubung adalah independen bersyarat. Secara probabilistik, tepi dapat diberi "bobot" yang mewakili kekuatan atau kemungkinan interaksi. Jaringan juga dapat dilihat sebagai matriks, memungkinkan operasi matematika. Kerangka kerja ini menyediakan cara yang efektif untuk mewakili dan mempelajari sistem biologis.

Jaringan ini sangat menarik untuk dipelajari karena malfungsi dapat memiliki efek yang besar. Banyak penyakit disebabkan oleh rewiring jaringan regulasi. Mereka mengontrol ekspresi spesifik konteks dalam pengembangan. Karena itu, mereka dapat digunakan dalam biologi sistem untuk memprediksi perkembangan, status sel, status sistem, dan banyak lagi. Selain itu, mereka merangkum banyak perbedaan evolusioner antara organisme yang secara genetik serupa.

Untuk menggambarkan jaringan regulasi, ada beberapa pertanyaan yang menantang untuk dijawab.

Identifikasi Elemen Apa saja unsur-unsur jaringan? Elemen yang merupakan jaringan regulasi diidentifikasi kuliah terakhir. Ini termasuk motif hulu dan faktor yang terkait.

Analisis Struktur Jaringan Bagaimana elemen-elemen jaringan terhubung? Mengingat jaringan, analisis struktur terdiri dari pemeriksaan dan karakterisasi sifat-sifat penting. Hal ini dapat dilakukan jaringan biologis tetapi tidak terbatas pada mereka.

Inferensi Jaringan Bagaimana regulator berinteraksi dan mengaktifkan gen? Ini adalah tugas untuk mengidentifikasi tepi gen dan mengkarakterisasi tindakan mereka.

Aplikasi Jaringan Apa yang dapat kita lakukan dengan jaringan begitu kita memilikinya? Aplikasi termasuk memprediksi fungsi mengatur gen dan memprediksi tingkat ekspresi gen diatur.


1Lebih lanjut dalam kuliah epigenetik.


Inferensi komputasi dan analisis jaringan pengatur genetik melalui pola optimasi kombinatorial yang diawasi

Era pasca-genom membawa beragam kategori data omics. Inferensi dan analisis jaringan regulasi genetik bertindak menonjol dalam mengekstraksi mekanisme yang melekat, menemukan dan menafsirkan sifat biologis terkait dan prinsip-prinsip hidup di bawah fenomena yang membingungkan, dan akhirnya mempromosikan kesejahteraan umat manusia.

Hasil

Pola optimasi kombinatorial yang diawasi berdasarkan informasi dan teori pemrosesan sinyal diperkenalkan ke dalam inferensi dan analisis jaringan regulasi genetik. Ukuran asosiatif diusulkan untuk menentukan kekuatan/konektivitas regulasi, dan metrik pergeseran fase menentukan arah regulasi di antara komponen jaringan yang direkonstruksi. Dengan demikian, ini memecahkan masalah regulasi tidak langsung yang timbul dari sebagian besar metode relevansi linier/nonlinier saat ini. Dalam hal redundansi komputasi dan topologi, kami membatasi ukuran grup yang diklasifikasikan dari kandidat pasangan dalam pola optimisasi kombinatorial multiobjektif (MOCO).

Kesimpulan

Kami bersaksi tentang pendekatan yang diusulkan pada dua kumpulan data microarray dunia nyata dengan karakteristik statistik yang berbeda. Dengan demikian, kami mengungkapkan mekanisme desain yang melekat untuk jaringan genetik dengan cara kuantitatif, memfasilitasi analisis teoretis lebih lanjut dan desain eksperimental dengan tujuan penelitian yang beragam. Perbandingan kualitatif dengan metode lain dan fokus terkait tertentu yang membutuhkan pekerjaan lebih lanjut diilustrasikan dalam bagian diskusi.


Abstrak

Mengungkap jaringan regulasi molekuler yang mendasari perkembangan penyakit sangat penting untuk memahami mekanisme penyakit dan mengidentifikasi target obat. Metode yang ada untuk menyimpulkan jaringan pengatur gen (GRN) bergantung terutama pada data ekspresi gen jalur waktu. Namun, sebagian besar data omics yang tersedia dari studi cross-sectional pasien kanker seringkali kekurangan informasi temporal yang cukup, yang mengarah ke tantangan utama untuk inferensi GRN. Melalui kuantifikasi perkembangan laten menggunakan jarak manifold berbasis jalan acak, kami mengusulkan metode Bayesian berbasis perkembangan temporer laten, PROB, untuk menyimpulkan GRN dari data transkriptomik penampang sampel tumor. Kekokohan PROB terhadap variabilitas pengukuran dalam data dibuktikan secara matematis dan diverifikasi secara numerik. Evaluasi kinerja pada data nyata menunjukkan bahwa PROB mengungguli metode lain baik dalam inferensi pseudotime dan inferensi GRN. Aplikasi untuk kanker kandung kemih dan kanker payudara menunjukkan bahwa metode kami efektif untuk mengidentifikasi pengatur utama perkembangan kanker atau target obat. ACSS1 yang diidentifikasi secara eksperimental divalidasi untuk mempromosikan transisi epitel-ke-mesenkim dari sel kanker kandung kemih, dan interaksi target FOXM1 yang diprediksi diverifikasi dan merupakan prediksi kekambuhan pada kanker payudara. Studi kami menyarankan cara baru yang efektif untuk pemodelan data transkriptomik klinis untuk mengkarakterisasi perkembangan kanker dan memfasilitasi terjemahan pendekatan berbasis jaringan regulasi ke dalam pengobatan presisi.


2 SEBINI ARSITEKTUR

SEBINI menggunakan arsitektur tiga tingkat standar: (1) antarmuka pengguna klien berbasis web, (2) tingkat menengah logika aplikasi yang terdiri dari rangkaian servlet Java dan program Java lainnya (>100 kelas Java) dan (3) relasional database menyimpan data yang dibutuhkan oleh middle tier. Jaringan yang disimpulkan (serta data mentah, data diskrit dan pemilihan parameter algoritme yang digunakan untuk menghasilkan jaringan) disimpan secara permanen dalam database untuk visualisasi, analisis topologi dan statistik, dan untuk kemudian diekspor dalam format yang dapat dibaca manusia atau program khusus . Algoritme inferensi dan diskritisasi (binning) dapat berupa program apa pun yang dapat dieksekusi, kelas penangan Java ditambahkan untuk setiap algoritme baru untuk menangani komunikasi antara halaman web permintaan, database, dan algoritme. Keamanan diimplementasikan berdasarkan proyek, dengan satu pemilik dan mungkin beberapa pengguna per proyek.

Masalah desain utama termasuk (1) antarmuka untuk navigasi pengguna di antara kumpulan data yang mungkin sangat besar, memungkinkan penelusuran yang mudah dari rangkaian jaringan ke jaringan tertentu ke simpul atau tepi tertentu dan (2) menghasilkan pemetaan yang efisien dan dapat dipahami dari jaringan yang disimpulkan dan tepi yang disimpulkan kembali ke data ekspresi asli yang sesuai. Perhatikan bahwa kita memiliki hubungan satu-ke-banyak dari kumpulan data ekspresi ke kumpulan data ekspresi bin, serta hubungan satu-ke-banyak antara kumpulan data bin dan jaringan yang disimpulkan serta tepi yang disimpulkan yang dibuat oleh algoritme inferensi yang dipilih. Catatan untuk masing-masing tipe data ini disimpan secara permanen dan terhubung ke catatan yang sesuai dari tipe data lainnya. Keputusan desain lainnya: semua komunikasi antar-servlet dirutekan melalui servlet CentralControl, untuk aliran kontrol yang jelas (dan dapat digunakan kembali). Setiap algoritma binning dan inferensi dipanggil dalam utas Java terpisah yang melakukan posting pekerjaan ke database, sehingga memungkinkan pemantauan dinamis kemajuan pekerjaan oleh pengguna. Pekerjaan diatur dalam milidetik, memungkinkan perbandingan antara algoritme kecepatan relatif versus daya relatif.

SEBINI awalnya diimplementasikan pada desktop Dell yang menjalankan Red Hat Linux, menggunakan Java ver. 1.4, PostgreSQL ver. 7.4 dan Tomcat 4.1. SEBINI juga telah diinstal pada Windows 2003 Web Server. Parameter khusus mesin disimpan dalam file teks properti yang mudah diubah. MATLAB Mathworks diperlukan untuk beberapa algoritma inferensi.


KARAKTERISASI TOPOLOGI JARINGAN

Mungkin tingkat analisis jaringan yang paling umum berasal dari ukuran jaringan global yang memungkinkan kita untuk mengkarakterisasi dan membandingkan topologi jaringan yang diberikan (yaitu konfigurasi node dan tepi penghubungnya). Pengukuran global seperti distribusi derajat (derajat sebuah node adalah jumlah edge yang berpartisipasi) dan koefisien clustering (jumlah edge yang menghubungkan tetangga node dibagi dengan jumlah maksimum edge tersebut) baru-baru ini telah diteliti secara menyeluruh. ditinjau dalam konteks jaringan seluler [8**] dan dalam proteomik [9]. Telah diusulkan bahwa konsep grafik kuantitatif ini dapat secara efisien menangkap organisasi jaringan seluler, memberikan wawasan tentang evolusi, fungsi, stabilitas, dan respons dinamisnya [ 10**]. Misalnya, beberapa jenis jaringan biologis yang disurvei, seperti PPI, regulasi gen, dan jaringan metabolisme, dianggap menampilkan topologi bebas skala (yaitu sebagian besar node hanya memiliki beberapa koneksi sedangkan beberapa node sangat terhubung), ditandai dengan power- distribusi derajat hukum yang meluruh lebih lambat dari eksponensial. Jenis topologi jaringan khusus ini juga sering diamati di banyak jaringan non-biologis dan dapat dihasilkan oleh model evolusioner yang sederhana dan elegan, di mana node baru secara istimewa melekat pada situs yang sudah sangat terhubung. Banyak perbaikan pada model generik ini termasuk, misalnya, duplikasi jaringan berulang dan integrasi ke inti aslinya, yang mengarah ke topologi jaringan hierarkis, yang dicirikan oleh distribusi koefisien pengelompokan yang tidak konstan [8, 10].

Namun, harus diperhatikan bahwa, dalam praktiknya, arsitektur jaringan biologis skala besar ditentukan dengan metode pengambilan sampel, menghasilkan subnet dari jaringan yang sebenarnya, dan hanya jaringan parsial ini yang dapat diterapkan untuk mengkarakterisasi topologi yang mendasarinya, jaringan tersembunyi [ 11]. Baru-baru ini diketahui bahwa adalah mungkin untuk mengekstrapolasi dari subnet ke properti seluruh jaringan hanya jika distribusi derajat dari seluruh jaringan dan subnet yang diambil sampelnya secara acak berbagi keluarga distribusi probabilitas yang sama [12]. Meskipun ini adalah kasus di kelas tertentu dari model graf jaringan, termasuk Erdös–Rényi klasik dan graf acak eksponensial, kondisinya tidak memenuhi untuk distribusi derajat bebas skala. Oleh karena itu, studi terbaru dalam jaringan interaksi telah mengungkapkan bahwa model bebas skala yang diterima secara umum untuk jaringan PPI mungkin gagal untuk menyesuaikan data [13]. Selain itu, pengambilan sampel terbatas saja mungkin juga menimbulkan topologi bebas skala, terlepas dari topologi jaringan asli [14]. Hasil ini menunjukkan bahwa interpretasi properti global dari struktur jaringan lengkap berdasarkan akurasi saat ini—masih terbatas—dan cakupan jaringan yang diamati harus dibuat dengan hati-hati. Selain itu, sementara properti grafik bebas skala dan hierarkis dapat secara efisien mengkarakterisasi beberapa atribut jaringan skala besar, modularitas lokal dan pengelompokan jaringan kemungkinan menjadi konsep kunci dalam memahami sebagian besar mekanisme dan fungsi seluler.


1. Perkenalan

Pemodelan dinamika gabungan dari pola ekspresi gen (protein) sesuai dengan perubahan kondisi internal dan lingkungan merupakan tugas penting dalam sistem biologi. Untuk mengkarakterisasi dan mengungkap dinamika yang tepat dari jaringan regulasi gen genome-wide (GRN), upaya penelitian yang signifikan telah dikhususkan untuk terus menyempurnakan metode komputasi yang akan memungkinkan para peneliti untuk memahami interaksi kompleks regulasi gen ( Hughes dkk., 2000). Metode seperti itu, sering disebut sebagai reverse engineering (Karlebach dan Shamir, 2008 Madhamshettiwar dkk., 2012 Prill dkk., 2010 Stolovitzky dkk., 2007), telah digunakan untuk menyesuaikan model diskrit GRN dengan data eksperimen throughput tinggi. Dalam literatur, pendekatan inferensi berbasis ekspresi gen telah menunjukkan kinerja sederhana ketika diterapkan pada data nyata dibandingkan dengan dalam silikon data ekspresi ( Madhamshettiwar dkk., 2012 Marbach dkk., 2012). Selain itu, kinerja prediktif melalui pendekatan berbasis ekspresi microarray murni dapat ditingkatkan dengan memasukkan beberapa jenis data, seperti pengayaan set gen ( Chouvardas dkk., 2016), informasi urutan ( Yu dkk., 2014) dan topologi jaringan (Hartemink dkk., 2001).

Di sisi lain, GRN umumnya telah dimodelkan menggunakan persamaan diferensial biasa (ODE), jaringan Boolean dan model grafis probabilistik termasuk jaringan Bayesian (de Hoon dkk., 2002 Friedman dkk., 2000 Lovric dkk., 2014). Untuk penilaian ulang model GRN yang direkonstruksi berdasarkan bukti tambahan, di masa lalu, metodologi komputasi telah dikembangkan dan diformalkan secara matematis, untuk secara ketat mengintegrasikan pengetahuan biologis sebelumnya dan pengukuran throughput tinggi ( Terselubung dkk., 2004 Gat-Viks dkk., 2006). Selanjutnya, metodologi tersebut telah diformalkan dengan cara yang memungkinkan deskripsi prediksi yang baik dari data eksperimen. Terlepas dari pemodelan atau pendekatan komputasi yang diterapkan, penting untuk menilai validitas jaringan tersebut. Mengingat topologi jaringan biologis dan sebagian set profil ekspresi microarray untuk semua gen dalam jaringan, algoritma rekayasa balik harus menyimpulkan sistem dinamik probabilistik yang terbaik menjelaskan data percobaan yang diamati. Pada artikel ini, kami mempertimbangkan masalah rekayasa terbalik ini. Kami menggambarkan dinamika jaringan sebagai lintasan tingkat ekspresi gen pada kondisi mapan, mengingat kondisi eksperimental.

Dalam literatur, beberapa metode yang dapat mengambil jaringan biologis dan mensimulasikan data biologis dari gen yang berbeda baik sebagai data deret waktu atau nilai kondisi mapan telah diusulkan. Salah satunya adalah sgnesR ( tripati dkk., 2017), paket R yang digunakan untuk mensimulasikan profil ekspresi gen dari jaringan gen tertentu menggunakan algoritme simulasi stokastik, yang parameter reaksinya ditentukan di bawah batasan yang ditentukan. Demikian pula, simulator data genomik multi-tampilan yang diusulkan oleh Fratello dkk. (2015) dapat menghasilkan data biologis sintetik dari model jaringan berbasis ODE dengan parameter yang diketahui, yang dibangun melalui prosedur iteratif. Kumpulan data simulasi, meskipun dikendalikan sepenuhnya, seringkali terlalu sederhana untuk secara efisien menjelaskan interaksi regulasi yang kompleks di antara entitas biologis dibandingkan dengan data ekspresi gen nyata. Alat simulasi dan pemodelan lain yang banyak digunakan dalam biologi sistem adalah simulator jalur kompleks (COPASI) ( Hoops dkk., 2006 Clipp dkk., 2008). COPASI adalah program yang berdiri sendiri yang mengkhususkan diri dalam menyiapkan dan menganalisis model jaringan biokimia dan kinetik sambil juga menyediakan beberapa analisis stoikiometri dasar. Hal ini memungkinkan untuk analisis yang lebih rinci dan halus, tetapi juga menuntut lebih banyak pengetahuan, yaitu tentang kinetika proses individu. Faktor penting dalam simulasi model ini adalah pengetahuan tentang parameter reaksi kinetik. Informasi ini dapat diambil dari literatur, namun sulit ditemukan (Klipp dkk., 2008). Kurangnya konstanta kinetik berasal dari kesulitan dalam pengukuran dan ketidakpastian dalam fungsi banyak protein dan interaksinya, dan dengan demikian membatasi penerapan beberapa pendekatan ini. Namun, simulator ini memberikan informasi berharga yang dapat digunakan untuk menguji metode inferensi jaringan secara kualitatif, serta untuk mengidentifikasi parameter model.

Dalam pekerjaan kami, kami menerapkan model probabilistik untuk menilai secara statistik konsistensi global antara GRN dan profil ekspresi gen dari beragam kondisi eksperimental. Oleh karena itu, kami mengeksplorasi kerangka kerja probabilistik yang memungkinkan kami untuk memodelkan ketidakpastian dalam jaringan seluler melalui integrasi pengetahuan biologis sebelumnya dan data eksperimental throughput tinggi. Kami memformalkan model sebagai grafik faktor probabilistik ( Kschischang dkk., 2001), yang dapat menangani sistem yang sangat kompleks dan kumpulan data yang luas. Model probabilistik ini memungkinkan kita untuk mengatasi kelemahan model yang mengasumsikan pengamatan tak bersuara, karena model ini mampu menggabungkan pengukuran kontinu yang bising dengan hubungan regulasi diskrit antar variabel. Selain itu, tidak memerlukan penentuan parameter kinetik jaringan secara eksplisit. Metode kami diterapkan pada Escherichia coli Data microarray DNA, yang berhasil digunakan untuk memprediksi keadaan mapan global yang diizinkan dari gen di masing-masing sub-jaringan yang diekstraksi. Analisis kami dilakukan pada data dan jaringan ekspresi gen nyata. Metode ini selanjutnya divalidasi menggunakan teknik gangguan jaringan (Maslov, 2008), serta eksperimen penghapusan gen. Sisa artikel ini disusun sebagai berikut: Pada Bagian 2, kami merumuskan kerangka kerja jaringan grafik faktor probabilistik (FGN) untuk analisis jaringan biologis yang diberikan data eksperimen. Kami melanjutkan dengan model inferensi dengan menerapkan algoritma message-passing. Bagian 3 menjelaskan contoh jaringan regulasi dengan diskusi singkat tentang metodologi diskritisasi data. Bagian 4 menyajikan analisis statistik dari contoh jaringan seluler menggunakan kerangka kerja yang dijelaskan. Artikel ini menyimpulkan dalam Bagian 5.


Metode

Berdasarkan teori probabilitas dan pemrosesan sinyal, bagian berikut memperkenalkan metrik tanpa dimensi untuk kekuatan regulasi dan metrik pergeseran fase untuk menentukan orientasi regulasi. Untuk inferensi jaringan, kami mengusulkan kerangka kerja optimasi kombinatorial untuk membatasi kompleksitas inferensi. Kerangka kerja ini memungkinkan kemungkinan untuk menggabungkan pengetahuan yang diperoleh dan tujuan khusus untuk penambangan dan analisis integratif.

Inferensi berbasis teori probabilitas dari struktur jaringan biologis

Analisis korelasi bertujuan untuk mengungkapkan kekuatan hubungan linier antara variabel acak (R.V.) statistik korelasi (koefisien) mewakili keberangkatan dua R.V. dari kemerdekaan. Di antara berbagai metrik yang sering digunakan untuk mengukur korelasi atau asosiasi, Pearson koefisien korelasi product-moment berlaku untuk beberapa data dengan karakteristik yang beragam. Biasanya, korelasi ρ X,Y dilambangkan sebagai kovarians dari dua R.V. dibagi dengan produk dari simpangan bakunya, yang dapat direpresentasikan sebagai [7, 10, 12, 13]

di mana cov menunjukkan kovarians, E adalah operator nilai yang diharapkan, μ x = E(x), dan x 2 = E[(x-E(x)) 2 ]=E(x 2 )-E 2 (x).

Ketika menafsirkan Pearson koefisien korelasi product-moment, Cohen mencatat bahwa kriteria interpretatif yang diusulkan bersifat arbitrer secara umum dan bahwa perlakuan khusus harus diadopsi untuk kasus-kasus tertentu dalam rentang dari fisika hingga ilmu sosial lainnya [22]. Terlepas dari statistik parametrik, metrik korelasi nonparametrik seperti χ 2 tes, Spearman's ρ, dan Kendall's τ diusulkan, dan metrik tersebut dapat diterapkan pada masalah distribusi nonnormal yang beragam [23].

Inferensi informasi-teoretis dari struktur jaringan biologis

Untuk mengukur ketergantungan timbal balik dari dua R.V., informasi timbal balik sering diadopsi sebagai alternatif dalam aplikasi teori informasi, selain metrik di atas. Informasi timbal balik dari dua R.V. dapat didefinisikan sebagai [24],

di mana P(x, kamu) menunjukkan distribusi probabilitas gabungan dari x dan kamu, dan P1(x) dan P2(kamu) mewakili distribusi probabilitas marjinal dari x dan kamu masing-masing. Ukuran biasanya mengadopsi bentuk yang terdefinisi dengan baik Saya(x, kamu, B), di mana B menunjukkan basis. Secara umum, basis 2 dapat ditentukan karena itu adalah unit umum dari bit. Jadi, untuk analisis dalam konteks ini, kami secara konsisten menggunakan basis 2.

Ukuran asosiatif untuk menggambarkan konektivitas regulasi

Langkah-langkah yang dijelaskan di atas menggambarkan hubungan korelasi dan ketergantungan R.V. Biasanya, R.V. mencirikan entitas yang berbeda dalam suatu sistem. Interkoneksi dalam jaringan biologis dapat dibobot dengan probabilitas hubungan antara pasangan yang diselidiki [25]. Karena metrik di atas, yaitu NS Pearson korelasi produk-momen dan informasi timbal balik adalah besaran vektor tanpa dimensi. Kami memperkenalkan ukuran asosiatif (AM) untuk menerangi konektivitas antara pasangan kandidat. Dalam ukuran seragam ini, jumlah informasi timbal balik dan metrik korelasi dapat diproyeksikan ke koordinat ortogonal bidang 2D. Metrik direpresentasikan dalam istilah formal sebagai,

di mana MI Sayadan Cor Sayamenunjukkan informasi timbal balik dan jumlah korelasi masing-masing ω Saya1ω Saya2mewakili bobot kedua kuantitas α Sayaadalah beda fasa untuk Saya pasangan calon dan n adalah himpunan bilangan asli. Perhatikan bahwa bobot di sini bertujuan untuk memanfaatkan kemungkinan distribusi asimetris dalam kumpulan data dari subterm di atas MI Sayadan Cor Saya. Bobot dapat diturunkan dari pengetahuan yang diperoleh sebelumnya atau dari hipotesis teoretis tertentu, misalnya centroid masing-masing dari dataset.

Metrik pergeseran fase untuk menentukan arah peraturan

Saat ini, sebagian besar profil ekspresi gen adalah data deret waktu diskrit. Sampel data adalah kepadatan ekspresi beragam yang diukur pada beberapa titik waktu, dan interval data mewakili periode pengambilan sampel. Kapan n sampel dibandingkan, total n(n-1)/2 perbandingan berpasangan diperoleh. pantat dkk. memanfaatkan jenis metode pemrosesan sinyal untuk mengelompokkan dan membandingkan kesamaan profil ekspresi [26]. Untuk setiap regulasi berpasangan potensial, aktivitas gen yang diselidiki dapat dimodulasi sebagai subsistem. Pola ekspresi mereka dapat dilihat sebagai sinyal input dan output, seperti yang ditunjukkan pada Gambar 9.

Setiap asosiasi berpasangan mungkin dimodulasi sebagai subsistem dengan pola ekspresi yang berfungsi sebagai sinyal input dan output.

Untuk setiap pasangan, koherensi, penguatan, dan pergeseran fasa dapat dihitung dengan transformasi Fourier diskrit (DFT) dari input dan output. Koherensi sinyal A dan B adalah fungsi dari kerapatan spektral daya (PSD) dan kerapatan spektral daya silang (CPSD), yang didefinisikan sebagai berikut,

di mana PSD A A(F), PSD bb(F), dan CPSD ab(F) mengukur PSD dan CPSD dari sinyal berpasangan terkait. Simbol F mewakili metrik domain frekuensi. Biasanya, sinyal A dan B memiliki panjang yang sama. Koherensi 1 mewakili hubungan kelipatan skalar antara dua sinyal yang diselidiki, sedangkan 0 menunjukkan bahwa hubungan semacam itu tidak terkait secara linier. Fungsi transfer (TF) antara dua sinyal input/output terkait mengukur amplifikasi sinyal dan properti jeda waktu/latensi terkait, yang didefinisikan sebagai,

Fungsi alih reguler akan berupa bentuk bernilai kompleks, yang arktangennya adalah fase transfer (TP) yang sesuai. Nilai absolut menunjukkan keuntungan transfer terkait (TG), dan kedua metrik direpresentasikan sebagai,

Secara teoritis, TP menggambarkan pergeseran fasa antara sinyal berpasangan yang diselidiki, yaitu masukan dan keluaran. Rentang pergeseran fasa dapat dialokasikan dalam -π hingga , di mana -π mewakili fasa utama setengah panjang gelombang dan menunjukkan jeda fasa setengah panjang gelombang. Apakah sinyal input diperkuat atau tidak, tidak diterangi pada output oleh penguatan transfer dan menentukan derajat terkait pada frekuensi yang berbeda. Semakin besar rasio, semakin sedikit energi yang hilang oleh output. Perhatikan bahwa pada frekuensi yang berbeda, fase transfer dan penguatan transfer relatif mungkin berbeda satu sama lain. Kriteria evaluasi yang efektif untuk metrik ini adalah koherensi terkait, yaitu, pada frekuensi di mana nilai koherensi tinggi, fase transfer dan penguatan yang sesuai jauh lebih andal daripada yang lain.

Keuntungan dari metrik tersebut terletak pada karakteristik yang fleksibel dan kuantitatif dalam menentukan penundaan regulasi melalui ambang dinamis. Mekanisme regulasi faktual memiliki banyak kemungkinan, dan efek penundaan regulasi yang melekat dapat bervariasi selama proses biologis secara keseluruhan. Metrik pergeseran fase menentukan kemungkinan seperti itu yang mendasari mekanisme regulasi secara kuantitatif. Keuntungannya termasuk kemampuan inheren untuk mengintegrasikan sebuah prioritas pengetahuan biologi. Metode inferensi berbasis pengetahuan semacam ini menghindari konektivitas positif palsu yang berlebihan dalam kandidat berpasangan.

Ambang dinamis seperti itu berlaku untuk sebagian besar masalah yang dihadapi ahli biologi teoretis dan eksperimental. Karena konektivitas peraturan yang mendasari kandidat berpasangan mungkin berbeda dalam proses yang beragam atau pada waktu pengambilan sampel yang berbeda, penentuan sistematis dan kuantitatif peraturan ini dengan pengetahuan empiris dan teoretis akan jauh lebih efektif daripada yang dihasilkan oleh pendekatan komputasi yang paling tersedia saat ini [17]. Jenis konektivitas dan regulasi jaringan yang fleksibel seperti itu mencirikan proses regulasi utama dari perspektif teori pemrosesan informasi dan sinyal.

Pola MOCO untuk membatasi kompleksitas komputasi

Pada bagian berikut, kami mengekstrak peraturan yang melekat dan menguraikan struktur jaringan dengan memperkenalkan kriteria hierarki gen berpasangan (PGHC) untuk mengklasifikasikan pasangan gen yang mungkin menjadi tiga kelompok utama sebagai berikut.

Gen Berpasangan Asli (APG): Ini termasuk pasangan dengan nilai informasi timbal balik dan koefisien korelasi yang lebih besar dari ambang batas tertentu. Selain itu, yang sesuai P nilai berada dalam interval kepercayaan, yaitu, lebih kecil dari 0,05.

Gen Berpasangan yang Dipertanyakan (QPGs): Ini termasuk pasangan yang tidak memenuhi kedua ambang batas yang disebutkan di atas. Grup berisi pasangan dua kelas. Satu kelas memiliki pasangan dengan informasi timbal balik yang lebih besar dari ambang batas tertentu tetapi tidak memenuhi kriteria koefisien korelasi atau P nilai-nilai. Kelas lain termasuk pasangan dengan koefisien korelasi lebih besar dari ambang batas tertentu dan dengan P nilai yang berada dalam interval kepercayaan tetapi informasi timbal balik terkait tidak memenuhi ambang batas tertentu.

Unauthentic Pairwise Genes (UPGs): Ini termasuk kandidat pasangan yang tidak memenuhi kriteria APG atau QPG apa pun yang ditentukan di atas.

QPG sebenarnya bertindak sebagai kumpulan kandidat anak perusahaan untuk APG jika ambang batas empiris ditetapkan terlalu tinggi untuk mengekstraksi struktur hanya dari APG. Dalam kondisi seperti itu, QPG akan diberi peringkat menurut nilai informasi bersama, koefisien korelasi, dan P nilai-nilai. Pasangan optimal akan dialokasikan ke APG untuk menyempurnakan konektivitas jaringan sebelumnya. Algoritma untuk PGHC yang diawasi ditunjukkan pada tabel 1.

Dengan demikian, rekonstruksi jaringan dapat diubah menjadi kelas masalah MOCO [10, 12, 13]. Tujuan optimasi termasuk pertama mencapai ambang batas yang sesuai untuk informasi bersama dan koefisien korelasi untuk memaksimalkan komponen yang layak dalam APG. Inferensi mungkin dilakukan dengan lebih percaya diri dan reliabilitas. Tujuan kedua adalah untuk memaksimalkan UPG. Semakin besar UPG, semakin sedikit masalah yang dihadapi selama pencarian solusi lebih lanjut. Ini mengurangi ruang solusi yang layak untuk perhitungan selanjutnya. Selain itu, kendala relatif berikut ada. Ada kendala non-negatif untuk ukuran kelompok, dan jumlah pasangan calon tetap, yaitu ruang kombinatorial yang valid terbatas. Ambang perolehan untuk menjamin konektivitas jaringan yang valid dan pengetahuan biokimia yang diperoleh sebelumnya dan kondisi eksperimental yang berbeda merupakan kendala utama lainnya untuk proses rekonstruksi. Paradigma MOCO digambarkan sebagai berikut,

di mana F Sayaadalah himpunan fungsi multiobjektif S1adalah himpunan kombinasi grup yang layak untuk APG, QPG, dan UPG S2adalah himpunan bilangan dari semua pasangan gen (S 2 = <n(n-1) / 2>, n adalah jumlah total gen) S3adalah himpunan kendala gain yang diperlukan (GC) dan S4adalah serangkaian kemungkinan kendala dari pengetahuan biologis yang diperoleh (ABK).

Baru-baru ini beberapa penulis berpendapat perlunya menggabungkan preferensi pengambil keputusan (DM) ke dalam pemilihan solusi MOCO [27-29]. Untuk masalah yang sedang diselidiki, preferensi DM terutama berasal dari GC (S3) dan ABK (S4) digambarkan di atas.

Dalam kasus yang diatur oleh ambang batas yang lebih rendah dari metrik informasi dan korelasi timbal balik, APG akan membentuk grup dengan komponen maksimum dalam total kandidat pasangan. Di sisi lain, dengan ambang batas yang tinggi, lebih banyak pasangan dapat dikelompokkan ke dalam UPG. Ini mengurangi kompleksitas komputasi untuk rekonstruksi jaringan karena APG memiliki lebih sedikit komponen dalam situasi seperti itu. Jika APG diklasifikasikan dengan ukuran di atas normal, jaringan yang direkonstruksi akan terhubung secara padat dan akan memiliki lebih banyak redundansi. On the contrary, a sparsely connected structure will be inferred with an undersized candidate group of APGs.

Since biological theoreticians and experimentalists may vary specific mutual information and correlation thresholds to incorporate empirical or concrete knowledge into the reconstruction procedures, the underlying coordination approaches via the MOCO framework might be feasible and significant, especially for those containing pivotal structural connectivity or for specific analysis purposes.

The APGs, QPGs, and UPGs engender the underlying evolutionary mechanisms with respect to dynamic threshold by the above metrics and related biochemical knowledge, as shown in Figure 10.

Schematic representation of the MOCO problem by dynamic thresholding of mutual information and correlation metrics. Total pairs are classified into APGs, QPGs and UPGs. The upper rightward horizontal arrow represents dynamic thresholding by mutual information, and the left descending arrow is for thresholding of the correlation measure.


Differential gene regulatory networks in development and disease

Gene regulatory networks, in which differential expression of regulator genes induce differential expression of their target genes, underlie diverse biological processes such as embryonic development, organ formation and disease pathogenesis. An archetypical systems biology approach to mapping these networks involves the combined application of (1) high-throughput sequencing-based transcriptome profiling (RNA-seq) of biopsies under diverse network perturbations and (2) network inference based on gene-gene expression correlation analysis. The comparative analysis of such correlation networks across cell types or states, differential correlation network analysis, can identify specific molecular signatures and functional modules that underlie the state transition or have context-specific function. Here, we review the basic concepts of network biology and correlation network inference, and the prevailing methods for differential analysis of correlation networks. We discuss applications of gene expression network analysis in the context of embryonic development, cancer, and congenital diseases.

Kata kunci: Coexpression networks Correlation Systems biology Transcriptomics.


Dana-Farber Cancer Institute, Medical Oncology, Boston, MA, USA

Universität der Bundeswehr München, Department of Computer Science, Werner-Heisenberg-Weg 39, 85577 Neubiberg, Germany

Dana-Farber Cancer Institute, Medical Oncology, Boston, MA, USA

Tampere University of Technology, Computational Medicine and Statistical Learning Laboratory, Department of Signal Processing, Tampere, Finland

Dana-Farber Cancer Institute, Medical Oncology, Boston, MA, USA

Universität der Bundeswehr München, Department of Computer Science, Werner-Heisenberg-Weg 39, 85577 Neubiberg, Germany

Dana-Farber Cancer Institute, Medical Oncology, Boston, MA, USA

Tampere University of Technology, Computational Medicine and Statistical Learning Laboratory, Department of Signal Processing, Tampere, Finland

UMIT –The Health and Life Sciences University, Eduard Wallnoefer Zentrum 1, 6060 Hall Austria

Nankai University, College of Computer and Control Engineering, 300071 Tianjin, P.R. China

Nankai University, College of Computer and Control Engineering, 300071 Tianjin, P.R. China

Tampere University of Technology, Predictive Medicine and Analytics Lab Department of Signal Processing, Tampere, Finland

Ringkasan

This chapter presents the basic steps that are required to conduct a genome-scale gene regulatory networks (GRN) inference and network-based functional analysis in an R programming environment. The analysis is performed for a large-scale multiple myeloma gene expression data set. It shows the retrieval of gene expression data sets from the NCBI “GeoDB” database, their preprocessing and probe set summarization for gene annotation based on “Entrez” gene identifiers and gene symbols. The first step for the inference of a GRN is the data retrieval and data preprocessing. The chapter uses a publicly available preprocessed multiple myeloma data set available from “GeoDB” with the accession “GSE4581”. The chapter gives basic gene expression data processing requirements for the inference and analysis of GRN by the application of the “bc3net” R package. The “bc3net” is a bagging approach of the “c3net” and aggregates an ensemble of “c3net” GRN that are inferred by bootstrapping a gene expression data set.


Supplementary Figure 1 Comparison of datasets simulated from synthetic networks by using BoolODE and GeneNetWeaver.

Each row corresponds to the synthetic network indicated by the label on the left. (a) The network itself, with red edges representing inhibition and blue edges representing activation. (b) A 2D t-SNE visualization of one BoolODE-generated dataset for 2,000 cells. The color of each point indicates the simulation time: blue for earlier, green for intermediate, and yellow for later times. (c) Each colour corresponds to a different subset of cells obtained by using k-means clustering of the BoolODE-generated dataset, with k set to the number of expected steady states. (d) A 2-D t-SNE visualization of one GeneNetWeaver output.

Supplementary Figure 2 Box plots of AUPRC values for synthetic networks.

Each row corresponds to one of the six synthetic networks. Each column corresponds to an algorithm. Red, blue, yellow, purple and green box plots correspond to AUPRC values for 10 datasets with 100, 200, 500, 2,000, and 5,000 cells, respectively. The gray dotted line indicates the AUPRC value for a random predictor, which is equal to the network’s density. In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

Supplementary Figure 3 Box plots of AUROC values for synthetic networks.

Each row corresponds to one of the six synthetic networks. Each column corresponds to an algorithm. Red, blue, yellow, purple and green box plots correspond to AUROC values for 10 datasets with 100, 200, 500, 2,000, and 5,000 cells, respectively. The gray dotted line indicates the AUROC value for a random predictor (0.5). In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

Supplementary Figure 4 Box plots of AUPRC values for curated models.

Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to AUPRC values for 10 datasets with no dropouts, a dropout rate of Q = 50, and a dropout rate of Q = 70, respectively. The gray dotted line indicates the AUPRC value for a random predictor, i.e., the network density. In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

Supplementary Figure 5 Box plots of AUROC values for curated models.

Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to AUROC values for 10 datasets with no dropouts, a dropout rate of Q = 50, and a dropout rate of Q = 70, respectively. The gray dotted line indicates the AUROC value for a random predictor (0.5). In all boxplots, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

Supplementary Figure 6 Box plots of early precision values for curated models.

Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to early precision values for 10 datasets with no dropouts, a dropout rate of Q = 50, and a dropout rate of Q = 70, respectively. The gray dotted line indicates the early precision value for a random predictor (network density). In each boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

Supplementary Figure 7 Scalability of GRN algorithms on experimental single-cell RNA-Seq datasets.

Variation in running time and memory usage of GRN inference algorithms with respect to number of genes for three experimental single-cell RNA-Seq datasets. Each point represents the mean running time or memory across all three datasets and the shaded regions correspond to one standard deviation around the mean. Missing values indicate that the method either did not complete after one day or gave a runtime error. We did not consider SCNS since it took over a day on the 19-gene GSD Boolean model. We obtained these results on a computer with a 32-core 2.0GHz processor and 32GB of memory running Ubuntu 18.04.

Supplementary Figure 8 Summary of EPR values for experimental single-cell RNA-Seq datasets with 500 and 1000 genes.

Summary of EPR results for experimental single-cell RNA-seq datasets. The left half of the figure (500 genes) shows results for datasets composed of the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report EPR values. The right half (1000 genes) shows results for the 1000 most-varying genes. In both sections, algorithms are sorted by median EPR across the datasets (rows) for the 500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.

Supplementary Figure 9 Summary of AUPRC ratio values for experimental single-cell RNA-Seq datasets with TFs + 500 and TFs + 1000 genes.

Summary of AUPRC ratio results for experimental single-cell RNA-seq datasets. The left half of the figure (TFs+500 genes) shows results for datasets composed of all significantly-varying TFs and the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report AUPRC ratios. The right half (TFs+1000 genes) shows results for all significantly-varying TFs and the 1000 most-varying genes. In both sections, algorithms are sorted by median AUPRC ratio across the datasets (rows) for the TFs+500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.

Supplementary Figure 10 Summary of AUPRC ratio values for experimental single-cell RNA-Seq datasets with 500 and 1000 genes.

Summary of AUPRC ratio values for experimental single-cell RNA-seq datasets. The left half of the figure (500 genes) shows results for datasets composed of the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report AUPRC ratios. The right half (1000 genes) shows results for the 1000 most-varying genes. In both sections, algorithms are sorted by median AUPRC ratios across the datasets (rows) for the 500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.


Tonton videonya: Kuliah TLM - Teknik Dasar Analisis Molekuler (Oktober 2022).