Latar Belakang Biologis
Seiring waktu, beberapa spesies tanaman cenderung menggandakan seluruh genomnya, mendapatkan salinan tambahan dari setiap gen. Karena ketidakstabilan pengaturan ini, banyak dari gen-gen ini kemudian dihapus, dan genom menata ulang dirinya sendiri dan menjadi stabil, siap untuk digandakan lagi. Peristiwa duplikasi ini dikaitkan dengan peristiwa spesiasi dan invasi, dan teorinya adalah bahwa duplikasi membantu tanaman beradaptasi lebih cepat dengan lingkungan baru mereka.
Lupinus, genus tanaman berbunga, menyerbu Andes di salah satu peristiwa spesiasi paling cepat yang pernah terdeteksi, dan terlebih lagi, tampaknya memiliki lebih banyak duplikat salinan dalam genomnya daripada genus yang paling dekat, Baptisia.
Dan sekarang masalah matematika:
Genom anggota Lupinus dan anggota Baptisia telah diurutkan, menyediakan data mentah sekitar 25.000 gen dalam setiap spesies. Dengan menanyakan terhadap basis data gen dari fungsi yang diketahui, saya sekarang memiliki "tebakan terbaik" untuk fungsi apa yang mungkin dilakukan oleh gen - jadi misalnya, Gene1298 mungkin dikaitkan dengan "metabolisme fruktosa, respons stres garam, respons stres dingin". Saya ingin tahu, apakah ada peristiwa duplikasi antara Baptisia dan Lupinus, apakah kehilangan gen terjadi secara acak, atau apakah gen yang menjalankan fungsi tertentu lebih mungkin disimpan atau dihapus.
Saya memiliki skrip yang akan menampilkan tabel seperti yang ditunjukkan di bawah ini. L * adalah jumlah semua gen Lupinus yang terkait dengan fungsi. L 1+ adalah jumlah gen lupinus yang terkait dengan fungsi di mana setidaknya ada satu salinan duplikat. Saya bisa mendapatkannya untuk menghasilkan L 2+, L 3+ dll, meskipun L 1+ adalah kelompok yang jauh lebih dapat diandalkan daripada L 2+ karena proses pengurutan.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Apa yang ingin saya lakukan adalah menguji, untuk setiap fungsi gen, apakah ada lebih banyak atau lebih sedikit gen dengan duplikat daripada yang mungkin diharapkan secara kebetulan di Lupinus dan Baptisia, dan apakah Lupinus berbeda dari Baptisia dalam rasio yang diamati dengan yang diharapkan.
Hal terbaik yang saya miliki sejauh ini
Studi sebelumnya tentang spesies yang berbeda telah menggunakan Analisis Pengayaan, dengan Fisher Exact Test dan koreksi FDR untuk beberapa sampel, untuk melakukan tes kontingensi pada setiap baris.
Akan lebih baik untuk memperbaiki ini; Saya tidak yakin ini terdengar seperti cara terbaik untuk melakukannya.
Glen_b telah menyarankan menggunakan GLM untuk menganalisis data; Saya telah bermain-main dengan GLM di JMP8, yang menarik, tetapi saya akui tidak terlalu memahami mereka.
Yang mengatakan, saya sedang mencoba menggunakan R sekarang.
Untuk apa saya menggunakan ini?
Ini semula seharusnya sebagai bagian dari proyek penelitian singkat yang saya lakukan di universitas, tetapi sekarang telah menyebar ke proyek anotasi genom yang sangat besar. Mengapa? Karena bioinformatika itu keren. Mampu mengambil string A, T, C dan G dan menggunakannya untuk menyimpulkan informasi tentang peristiwa yang terjadi jutaan tahun yang lalu sungguh menakjubkan.
Tidak perlu dikatakan, saya tidak akan mencoba dan menyerahkan jawaban yang diberikan dengan ramah sebagai karya saya sendiri. Saya akan dengan senang hati menyertakan pemberitahuan di koran jika saya menggunakan metode yang disarankan di sini dalam karya yang diajukan.
Jawaban:
Sementara saya setuju bahwa tes Fisher (atau yang serupa) mungkin merupakan pendekatan paling alami di sini, bagaimana dengan ini:
Tes Fisher yang dimodifikasi ini (dijuluki Cerno oleh penulis yang pertama kali menggambarkannya dalam konteks ini) mengambil setiap daftar memerintahkan gen sebagai masukan, selama Anda dapat mengelompokkan mereka dalam beberapa kategori yang berguna.
Keuntungan dari pendekatan ini adalah bahwa selain dari nilai-p, Anda dapat dengan mudah menghitung ukuran efek dari pengayaan dan memvisualisasikannya (misalnya, sebagai kurva ROC di atas daftar gen yang dipesan). Ini memberi Anda ide yang jauh lebih baik seberapa banyak yang Anda amati benar-benar penting bagi biologi yang Anda pelajari.
sumber
Seperti yang Anda katakan, Anda mengajukan dua pertanyaan berbeda.
Pertanyaan 1 "apakah rasio L * / L1 + berbeda dari B * / B1 + untuk fungsi gen yang diberikan"
ini mungkin paling baik dijawab dengan uji Fisher menggunakan data di baris seperti yang Anda temukan sebelumnya.
Pertanyaan 2 "adalah rasio: gen di mana ada satu salinan / gen di mana ada lebih dari satu salinan, berbeda di antara fungsi-fungsi gen?"
Saya pikir ini juga mungkin lebih baik dijawab dengan uji Fisher yang tepat. Anda akan menguji rasio L * / L1 + untuk fungsi gen 1 terhadap L * / L1 + untuk fungsi gen 2. Kemudian fungsi gen 1 Vs fungsi gen 3, dll.
Tidak satu pun dari rangkaian pertanyaan ini yang menentukan apakah mereka dipertahankan / dihapus lebih cepat dari yang diharapkan murni secara kebetulan, hanya apakah mereka dihapus / dipertahankan dengan tarif yang berbeda satu sama lain. Untuk mengetahui apakah mereka dihapus / dipertahankan pada tingkat yang berbeda dari kebetulan, Anda harus mengetahui rasio singlecopy / multiplecopy untuk banyak wilayah DNA yang hanya dipengaruhi secara kebetulan. Jika Anda dapat menemukan wilayah tersebut, Anda akan berakhir dengan "Grup fungsi" dengan fungsi "Tidak ada". Anda kemudian akan membandingkan ini dengan kelompok fungsi gen Anda yang lain dengan cara yang sama seperti yang saya jelaskan dalam pertanyaan 2.
sumber