Membingkai distribusi binomial negatif untuk sekuensing DNA

16

Distribusi binomial negatif telah menjadi model yang populer untuk menghitung data (khususnya jumlah sekuens yang diharapkan dibaca dalam wilayah genom tertentu dari percobaan yang diberikan) dalam bioinformatika. Penjelasannya bervariasi:

  • Beberapa menjelaskannya sebagai sesuatu yang bekerja seperti distribusi Poisson tetapi memiliki parameter tambahan, memungkinkan lebih banyak kebebasan untuk memodelkan distribusi yang benar, dengan varian yang tidak selalu sama dengan rata-rata
  • Beberapa menjelaskannya sebagai campuran tertimbang dari distribusi Poisson (dengan distribusi pencampuran gamma pada parameter Poisson)

Apakah ada cara untuk menyelesaikan alasan ini dengan definisi tradisional tentang distribusi binomial negatif sebagai pemodelan jumlah keberhasilan uji coba Bernoulli sebelum melihat sejumlah kegagalan tertentu? Atau haruskah saya menganggapnya sebagai kebetulan yang bahagia bahwa campuran tertimbang distribusi Poisson dengan distribusi pencampuran gamma memiliki probabilitas fungsi massa yang sama dengan binomial negatif?

Michael Hoffman
sumber
2
Ini juga merupakan distribusi Poisson majemuk di mana Anda menjumlahkan sejumlah variabel acak logaritmik yang terdistribusi Poisson.
Douglas Zare

Jawaban:

8

IMOH, saya benar-benar berpikir bahwa distribusi binomial negatif digunakan untuk kenyamanan.

Jadi dalam RNA Seq ada asumsi umum bahwa jika Anda mengambil jumlah tak terbatas pengukuran gen yang sama dalam jumlah tak terbatas ulangan maka distribusi sebenarnya akan lognormal. Distribusi ini kemudian diambil sampelnya melalui proses Poisson (dengan hitungan) sehingga distribusi sebenarnya yang dibaca per gen di seluruh ulangan adalah distribusi Poisson-Lognormal.

Tetapi dalam paket yang kami gunakan seperti EdgeR dan DESeq distribusi ini dimodelkan sebagai distribusi binomial negatif. Ini bukan karena orang-orang yang menulisnya tidak tahu tentang distribusi Poisson Lognormal.

Itu karena distribusi Lognormal Poisson adalah hal yang mengerikan untuk bekerja dengan karena memerlukan integrasi numerik untuk melakukan kesesuaian dll. Jadi ketika Anda benar-benar mencoba menggunakannya kadang-kadang kinerjanya sangat buruk.

Distribusi binomial negatif memiliki bentuk tertutup sehingga jauh lebih mudah untuk dikerjakan dan distribusi gamma (distribusi yang mendasarinya) sangat mirip dengan distribusi lognormal karena kadang-kadang terlihat agak normal dan terkadang memiliki ekor.

Tetapi dalam contoh ini (jika Anda percaya asumsi) itu tidak mungkin secara teoritis benar karena distribusi yang benar secara teoritis adalah Poisson lognormal dan dua distribusi adalah perkiraan yang masuk akal satu sama lain tetapi tidak setara.

Tapi saya masih berpikir distribusi binomial negatif "salah" sering merupakan pilihan yang lebih baik karena secara empiris akan memberikan hasil yang lebih baik karena integrasi berkinerja lambat dan cocok dapat berkinerja buruk, terutama dengan distribusi dengan ekor panjang.

Michele
sumber
7

Saya melihat melalui beberapa halaman web dan tidak dapat menemukan penjelasan, tetapi saya datang dengan satu untuk nilai integer . Misalkan kita memiliki dua sumber radioaktif yang secara bebas menghasilkan partikel alfa dan beta pada laju α dan β .rαβ

Berapa distribusi jumlah partikel alfa sebelum partikel beta ?r

  1. Pertimbangkan partikel alfa sebagai keberhasilan, dan partikel beta sebagai kegagalan. Ketika sebuah partikel terdeteksi, probabilitas bahwa itu adalah partikel alfa adalah . Jadi, ini adalah distribusi binomial negatifNB(r,ααα+β.NB(r,αα+β)

  2. Mempertimbangkan waktu dari r th partikel beta. Ini mengikuti distribusi gamma Γ ( r , 1 / β ) . Jika Anda mengkondisikan pada t r = λ / α , maka jumlah partikel alfa sebelum waktu t r mengikuti Poisson distribution Pois ( λ ) . Jadi, distribusi jumlah partikel alfa sebelum partikel beta r adalah distribusi Poisson campuran Gamma.trrΓ(r,1/β).tr=λ/αtrPois(λ).r

Itu menjelaskan mengapa distribusi ini sama.

Douglas Zare
sumber
2

Saya hanya dapat menawarkan intuisi, tetapi distribusi gamma itu sendiri menggambarkan waktu tunggu (berkelanjutan) (berapa lama waktu yang diperlukan untuk peristiwa langka terjadi). Jadi fakta bahwa campuran terdistribusi gamma dari distribusi poisson diskrit akan menghasilkan waktu tunggu yang terpisah (percobaan sampai kegagalan N) tampaknya tidak terlalu mengejutkan. Saya harap seseorang memiliki jawaban yang lebih formal.

Sunting: Saya selalu membenarkan distorsi binomial negatif. untuk sekuensing sebagai berikut: Langkah sekuensing sebenarnya hanyalah pengambilan sampel dibaca dari perpustakaan besar molekul (poisson). Namun perpustakaan itu dibuat dari sampel asli oleh PCR. Itu berarti bahwa molekul asli diperkuat secara eksponensial. Dan distribusi gamma menggambarkan jumlah k variabel bebas terdistribusi eksponensial bebas, yaitu berapa banyak molekul di perpustakaan setelah memperkuat sampel molekul k untuk jumlah siklus PCR yang sama.

Karenanya model binomial negatif PCR diikuti dengan pengurutan.

Felix Schlesinger
sumber
Itu masuk akal, tetapi dalam konteks mengukur jumlah urutan membaca dalam genom adakah penjelasan intuitif untuk apa yang mewakili periode tunggu dalam distribusi binomial negatif? Dalam hal ini tidak ada masa tunggu - dia hanya mengukur jumlah urutan membaca.
RobertF
Lihat hasil edit saya. Saya tidak melihat bagaimana memikirkannya dalam hal waktu tunggu cocok dengan pengaturan urutan. Campuran gamma poisson lebih mudah diinterpretasikan. Tetapi pada akhirnya mereka adalah hal yang sama.
Felix Schlesinger
2
Ok - lalu mungkin pertanyaan sebenarnya adalah apakah kebetulan memodelkan keberhasilan atau kegagalan dalam uji coba Bernoulli mengikuti campuran gamma Poisson? Mungkin pemodelan binomial negatif k keberhasilan + r kegagalan dapat dianggap sebagai Poisson dbn berlebih karena banyaknya permutasi yang mungkin dari percobaan kegagalan dan kegagalan yang menghasilkan keberhasilan yang diamati secara tepat dan kegagalan yang diamati, yang dapat digambarkan sebagai kumpulan dari pisahkan dbns?
RobertF
2

Saya akan mencoba memberikan interpretasi mekanistik sederhana yang menurut saya berguna ketika memikirkan hal ini.

μpμ1ppNB(μ1pp,p)

μ1ppp1p=μσ2=μ(1p)1

(1p)1

Bagian Leopold
sumber