Analisis pengayaan berdasarkan tingkat duplikasi gen

11

Latar Belakang Biologis

Seiring waktu, beberapa spesies tanaman cenderung menggandakan seluruh genomnya, mendapatkan salinan tambahan dari setiap gen. Karena ketidakstabilan pengaturan ini, banyak dari gen-gen ini kemudian dihapus, dan genom menata ulang dirinya sendiri dan menjadi stabil, siap untuk digandakan lagi. Peristiwa duplikasi ini dikaitkan dengan peristiwa spesiasi dan invasi, dan teorinya adalah bahwa duplikasi membantu tanaman beradaptasi lebih cepat dengan lingkungan baru mereka.

Lupinus, genus tanaman berbunga, menyerbu Andes di salah satu peristiwa spesiasi paling cepat yang pernah terdeteksi, dan terlebih lagi, tampaknya memiliki lebih banyak duplikat salinan dalam genomnya daripada genus yang paling dekat, Baptisia.

Dan sekarang masalah matematika:

Genom anggota Lupinus dan anggota Baptisia telah diurutkan, menyediakan data mentah sekitar 25.000 gen dalam setiap spesies. Dengan menanyakan terhadap basis data gen dari fungsi yang diketahui, saya sekarang memiliki "tebakan terbaik" untuk fungsi apa yang mungkin dilakukan oleh gen - jadi misalnya, Gene1298 mungkin dikaitkan dengan "metabolisme fruktosa, respons stres garam, respons stres dingin". Saya ingin tahu, apakah ada peristiwa duplikasi antara Baptisia dan Lupinus, apakah kehilangan gen terjadi secara acak, atau apakah gen yang menjalankan fungsi tertentu lebih mungkin disimpan atau dihapus.

Saya memiliki skrip yang akan menampilkan tabel seperti yang ditunjukkan di bawah ini. L * adalah jumlah semua gen Lupinus yang terkait dengan fungsi. L 1+ adalah jumlah gen lupinus yang terkait dengan fungsi di mana setidaknya ada satu salinan duplikat. Saya bisa mendapatkannya untuk menghasilkan L 2+, L 3+ dll, meskipun L 1+ adalah kelompok yang jauh lebih dapat diandalkan daripada L 2+ karena proses pengurutan.

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

Apa yang ingin saya lakukan adalah menguji, untuk setiap fungsi gen, apakah ada lebih banyak atau lebih sedikit gen dengan duplikat daripada yang mungkin diharapkan secara kebetulan di Lupinus dan Baptisia, dan apakah Lupinus berbeda dari Baptisia dalam rasio yang diamati dengan yang diharapkan.

Hal terbaik yang saya miliki sejauh ini

Studi sebelumnya tentang spesies yang berbeda telah menggunakan Analisis Pengayaan, dengan Fisher Exact Test dan koreksi FDR untuk beberapa sampel, untuk melakukan tes kontingensi pada setiap baris.

Akan lebih baik untuk memperbaiki ini; Saya tidak yakin ini terdengar seperti cara terbaik untuk melakukannya.

Glen_b telah menyarankan menggunakan GLM untuk menganalisis data; Saya telah bermain-main dengan GLM di JMP8, yang menarik, tetapi saya akui tidak terlalu memahami mereka.

Yang mengatakan, saya sedang mencoba menggunakan R sekarang.

Untuk apa saya menggunakan ini?

Ini semula seharusnya sebagai bagian dari proyek penelitian singkat yang saya lakukan di universitas, tetapi sekarang telah menyebar ke proyek anotasi genom yang sangat besar. Mengapa? Karena bioinformatika itu keren. Mampu mengambil string A, T, C dan G dan menggunakannya untuk menyimpulkan informasi tentang peristiwa yang terjadi jutaan tahun yang lalu sungguh menakjubkan.

Tidak perlu dikatakan, saya tidak akan mencoba dan menyerahkan jawaban yang diberikan dengan ramah sebagai karya saya sendiri. Saya akan dengan senang hati menyertakan pemberitahuan di koran jika saya menggunakan metode yang disarankan di sini dalam karya yang diajukan.

TDN169
sumber
1
Catat masalah yang saya sebutkan dalam jawaban saya sebelumnya untuk pertanyaan Anda yang lain - tentang pengujian hanya terhadap satu variabel ketika ada variabel penting lainnya (saya tunjuk ke artikel wikipedia di Simpson's Paradox) - Tes pasti Fisher tidak menyiasati hal itu.
Glen_b -Reinstate Monica
Bioinformatika itu keren !! Selamat datang di situs ini!
Kyle.
Saya akan kembali dan memberikan jawaban yang lebih luas segera, tetapi fungsi yang sesuai dalam R untuk melihat adalah loglin, loglm (dalam paket MASS, yang datang dengan R tetapi tidak diinstal secara default) dan glm sendiri. Pemahaman model-model ini akan memiliki banyak kesamaan untuk memahami regresi berganda dan ANOVA - dengan pengecualian bahwa distribusi tidak normal, dan log-of-means adalah apa yang menjadi model linier.
Glen_b -Reinstate Monica

Jawaban:

1

Sementara saya setuju bahwa tes Fisher (atau yang serupa) mungkin merupakan pendekatan paling alami di sini, bagaimana dengan ini:

  1. Untuk setiap gen unik, Anda menentukan perbedaan jumlah duplikasi dalam L dan B
  2. Pesan gen berdasarkan perbedaan ini. Sekarang gen yang menunjukkan perbedaan terbesar antara spesies akan berada di bagian atas daftar Anda.
  3. Terapkan tes pengayaan set gen ke daftar gen yang dipesan. Sebagai contoh, Anda dapat menggunakan metode Fisher yang dimodifikasi dari tmod paket saya , untuk itu Anda harus mendefinisikan set gen Anda (itu harus cukup mudah). Perhatikan bahwa metode Fisher tidak terkait dengan uji Fisher.

Tes Fisher yang dimodifikasi ini (dijuluki Cerno oleh penulis yang pertama kali menggambarkannya dalam konteks ini) mengambil setiap daftar memerintahkan gen sebagai masukan, selama Anda dapat mengelompokkan mereka dalam beberapa kategori yang berguna.

Keuntungan dari pendekatan ini adalah bahwa selain dari nilai-p, Anda dapat dengan mudah menghitung ukuran efek dari pengayaan dan memvisualisasikannya (misalnya, sebagai kurva ROC di atas daftar gen yang dipesan). Ini memberi Anda ide yang jauh lebih baik seberapa banyak yang Anda amati benar-benar penting bagi biologi yang Anda pelajari.

Januari
sumber
0

Seperti yang Anda katakan, Anda mengajukan dua pertanyaan berbeda.

Pertanyaan 1 "apakah rasio L * / L1 + berbeda dari B * / B1 + untuk fungsi gen yang diberikan"

ini mungkin paling baik dijawab dengan uji Fisher menggunakan data di baris seperti yang Anda temukan sebelumnya.

Pertanyaan 2 "adalah rasio: gen di mana ada satu salinan / gen di mana ada lebih dari satu salinan, berbeda di antara fungsi-fungsi gen?"

Saya pikir ini juga mungkin lebih baik dijawab dengan uji Fisher yang tepat. Anda akan menguji rasio L * / L1 + untuk fungsi gen 1 terhadap L * / L1 + untuk fungsi gen 2. Kemudian fungsi gen 1 Vs fungsi gen 3, dll.

Tidak satu pun dari rangkaian pertanyaan ini yang menentukan apakah mereka dipertahankan / dihapus lebih cepat dari yang diharapkan murni secara kebetulan, hanya apakah mereka dihapus / dipertahankan dengan tarif yang berbeda satu sama lain. Untuk mengetahui apakah mereka dihapus / dipertahankan pada tingkat yang berbeda dari kebetulan, Anda harus mengetahui rasio singlecopy / multiplecopy untuk banyak wilayah DNA yang hanya dipengaruhi secara kebetulan. Jika Anda dapat menemukan wilayah tersebut, Anda akan berakhir dengan "Grup fungsi" dengan fungsi "Tidak ada". Anda kemudian akan membandingkan ini dengan kelompok fungsi gen Anda yang lain dengan cara yang sama seperti yang saya jelaskan dalam pertanyaan 2.

Phil A
sumber