Menghitung probabilitas daftar gen tumpang tindih antara seq RNA dan satu set data chip-CHIP

13

Semoga seseorang di forum ini dapat membantu saya mengatasi masalah mendasar ini dalam studi ekspresi gen.

Saya melakukan sekuensing dalam jaringan eksperimental dan kontrol. Saya kemudian memperoleh nilai pengayaan lipat gen dalam sampel eksperimental alih kontrol. Genom referensi memiliki ~ 15.000 gen. 3.000 dari 15.000 gen diperkaya di atas batas tertentu dalam sampel yang saya minati dibandingkan dengan kontrol.

Jadi: A = total populasi gen = 15.000 B = subpopulasi yang diperkaya RNA-Seq = 3.000.

Dalam percobaan chip-CHIP sebelumnya, saya menemukan 400 gen yang diperkaya oleh chip-CHIP. Dari 400 gen chip ChIP, 100 gen berada dalam kelompok 3.000 transkrip RNA-Seq yang diperkaya.

Jadi: C = total # gen yang diperkaya chip-chip = 400.

Berapa probabilitas bahwa gen 100 chip-CHIP saya akan diperkaya oleh RNA-Seq secara kebetulan? Dengan kata lain, apa cara paling bijaksana untuk menghitung jika pengamatan saya tumpang tindih antara B dan C (100 gen) lebih baik daripada yang diperoleh secara kebetulan saja? Dari apa yang saya baca sejauh ini, cara terbaik untuk menguji ini adalah dengan menggunakan distribusi hypergeometric.

Saya menggunakan kalkulator online (stattrek.com) untuk mengatur tes distribusi hypergeometrik dengan parameter berikut: - ukuran pop = 15.000 - # keberhasilan dalam populasi = 3.000 - ukuran sampel = 400, - # keberhasilan dalam sampel = 100. Saya mendapatkan yang berikut untuk Probabilitas Hypergeometrik P (x = 100) = 0,00224050636447747

Jumlah aktual gen yang tumpang tindih antara B dan C = 100. Apakah ini lebih baik daripada kebetulan saja? Tidak terlihat seperti itu jika peluang satu gen diperkaya adalah 1: 5 (3.000 dari 15.000). Itu sebabnya saya tidak mengerti kenapa P saya (x = 100) yang saya hitung di atas adalah 0,0022. Itu berarti peluang 0,2% dari tumpang tindih yang terjadi secara kebetulan. Bukankah ini seharusnya jauh lebih tinggi?

Jika saya mengambil sampel 400 gen acak dari daftar besar 15.000, maka setiap 80 gen ini diharapkan akan diperkaya secara kebetulan (1: 5). Jumlah gen yang sebenarnya tumpang tindih adalah 100, jadi ini hanya sedikit lebih baik daripada secara kebetulan.

Saya juga mencoba menemukan solusi menggunakan fungsi dhyper atau phyper dalam R (menggunakan apa yang saya lihat di posting lain): A = semua gen dalam genom (15.000) B = gen yang diperkaya Seah-RNA (3.000) C = ChIP -cip gen yang diperkaya (400) Inilah input / output R (diadaptasi dari posting stackexchange sebelumnya):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36

Saya tidak yakin bagaimana menafsirkan angka-angka ini. Saya percaya 2.36e-36 adalah probabilitas mendapatkan tumpang tindih antara B dan C secara kebetulan? Tetapi ini tidak masuk akal, karena probabilitas itu jauh lebih dekat dengan 1: 5. Jika saya mulai dengan 15.000 gen, 3.000 akan diperkaya. Demikian pula, jika saya mulai dengan 400 gen chip ChIP, 80 di antaranya harus diperkaya dalam RNA-Seq saja karena peluang pengayaan 1: 5 dalam kumpulan data itu.

Apa cara yang tepat untuk menghitung nilai-p, menurut distribusi hypergeometrik, untuk tumpang tindih B dan C?

r genetics bioinformatics microarray biostatistics stlandroidfan
sumber

15

Anda dekat, dengan penggunaan dhyperdan phyper, tapi saya tidak mengerti dari mana 0:2dan -1:2berasal.

Nilai p yang Anda inginkan adalah kemungkinan mendapatkan 100 atau lebih bola putih dalam sampel berukuran 400 dari guci dengan 3000 bola putih dan 12.000 bola hitam. Berikut ini empat cara untuk menghitungnya.

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

Ini memberi 0,0078.

dhyper(x, m, n, k)memberi kemungkinan menggambar dengan tepat x. Pada baris pertama, kami merangkum probabilitas untuk 100 - 400; pada baris kedua, kita ambil 1 dikurangi jumlah probabilitas 0 - 99.

phyper(x, m, n, k)memberi kemungkinan mendapatkan xatau lebih sedikit, jadi phyper(x, m, n, k)sama dengan sum(dhyper(0:x, m, n, k)).

The lower.tail=FALSEagak membingungkan. phyper(x, m, n, k, lower.tail=FALSE)sama dengan 1-phyper(x, m, n, k), dan begitu juga probabilitas x+1atau lebih. [Aku tidak pernah mengingat ini dan selalu harus mengeceknya.]

$\ge$

max(dhyper(0:400, 3000, 12000, 400)) $\sim$

Berikut adalah gambar dari distribusi hypergeometric dalam kasus ini. Anda dapat melihat bahwa itu berpusat di 80 (20% dari 400) dan 100 cukup jauh di ekor kanan. masukkan deskripsi gambar di sini

Karl
sumber

Terima kasih banyak atas bantuan Anda. Saya mengerti logika di balik jawaban Anda. Tetapi bagaimana saya menjelaskan kepada sekelompok ahli biologi bahwa ini lebih besar daripada tumpang tindih yang diamati karena kebetulan saja? Mereka akan mengatakan bahwa saya memiliki kesempatan 1: 5 untuk tumpang tindih. Apakah tumpang tindih saya signifikan karena dalam ukuran sampel 400 bola (dari total 15.000 bola), peluang saya untuk mendapatkan bola putih sebenarnya lebih rendah dari 1: 5 karena saya mengambil sampel populasi yang lebih kecil (bukan keseluruhan 15.000)? Ini tidak masuk akal karena meskipun 400 <15.000, masih ada rasio 1: 5 dari putih: hitam. Apakah ini masuk akal?

stlandroidfan

@stlandroidfan - Saya tidak mengerti apa yang Anda anggap membingungkan. Saya telah menambahkan angka; Apakah ini membantu?

Karl

0

Lihatlah dengan cara ini .. Jika Anda menganggapnya sebagai binomial, yang mungkin tidak benar, tetapi harus cukup perkiraan .. sigma Anda ^ 2 adalah .8 * .2 * 400 = 64, maka sigma = 8. Jadi dari 80 hingga 100 Anda sudah 2,5 penyimpangan standar .. Ini cukup signifikan .. Seharusnya memiliki nilai p kecil.

Adam
sumber

Terima kasih atas jawaban anda. Distribusi hipergeometrik cenderung lebih sering digunakan untuk daftar gen yang tumpang tindih dari apa yang saya lihat dalam literatur. Pertanyaannya adalah berapa probabilitas mendapatkan 100 bola putih atau lebih dalam sampel ukuran 400 dari guci dengan 3000 bola putih dan 12.000 bola hitam? Saya pikir saya masih bingung dengan cara menjelaskan ini kepada sekelompok ahli biologi? Cara mereka melihatnya adalah 3000: 12000 adalah peluang 1: 5 untuk putih: hitam. Jadi dalam pengambilan sampel 400, 80 harus putih. Jadi, mengapa probabilitas mendapatkan 100 atau lebih jauh lebih rendah dari 20% (1 banding 5)?

stlandroidfan

Menghitung probabilitas daftar gen tumpang tindih antara seq RNA dan satu set data chip-CHIP

Jawaban: