Generalisasi berkelanjutan dari distribusi binomial negatif

24

Distribusi binomial negatif (NB) didefinisikan pada bilangan bulat non-negatif dan memiliki fungsi massa probabilitas

f(k;r,p)=(k+r1k)pk(1p)r.
Apakah masuk akal untuk mempertimbangkan distribusi kontinu pada real non-negatif yang didefinisikan oleh rumus yang sama (mengganti kN0 oleh xR0 )? Koefisien binomial dapat ditulis ulang sebagai produk dari (k+1)(k+r1) , yang didefinisikan dengan baik untuk setiap k nyata k. Jadi kita akan memiliki PDF
f(x;r,p)i=1r1(x+i)px(1p)r.
Secara umum, kita dapat mengganti koefisien binomial dengan fungsi Gamma, memungkinkan untuk nilai non-integer dari r :
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

Apakah ini distribusi yang valid? Apakah itu mempunyai nama? Apakah ada manfaatnya? Apakah mungkin senyawa atau campuran? Apakah ada rumus tertutup untuk mean dan varians (dan konstanta proporsionalitas dalam PDF)?

(Saat ini saya sedang mempelajari makalah yang menggunakan model campuran NB (dengan tetap r=2 ) dan cocok melalui EM. Namun, data adalah bilangan bulat setelah beberapa normalisasi, yaitu bukan bilangan bulat. Namun, penulis menerapkan rumus NB standar untuk menghitung kemungkinan dan mendapatkan hasil yang sangat masuk akal, jadi semuanya tampaknya berjalan dengan baik. Saya merasa sangat membingungkan. Perhatikan bahwa pertanyaan ini bukan tentang NB GLM.)

amuba kata Reinstate Monica
sumber
1
Bukankah itu campuran Gammas dengan parameter skala logp ? Jika Anda memperluas polinomial Πi=1r1(x+i) Anda hanya akan mendapatkan i=2raixi1 , kemudian dikalikan dengan px sama dengan dengan exp{xlogp} , di mana ai adalah koefisien xi1 dalam polinomial dan logp<0 tentu saja, jadi sepertinya itu akan dikonversi menjadi rata-rata tertimbang distribusi Gamma, yaitu campuran.
jbowman
... seharusnya i=1 dalam jumlah di atas, sebenarnya.
jbowman
2
Karena hanya bergantung pada parameter, itu adalah konstanta yang dapat diserap dalam proporsionalitas. Selain itu, juga memiliki konstanta yang dapat diabaikan. Menulis untuk , Anda bertanya tentang kepadatan yang sebanding denganItu mengidentifikasi sebagai faktor skala dan sebagai parameter bentuk. Untuk integral itu jelas campuran distribusi Gamma. Tidak masuk akal untuk membatasi ke integer.( x + r - 1(1p)r1/Γ(r)pk=e-kρρ=-log(p)0f(x;r,ρ)=Γ(x+r)(x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1))1/Γ(r)pk=ekρρ=log(p)0
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ρr rrr
whuber
1
@whuber Benar. Saya sebenarnya menggunakan distribusi yang kontinu pada nilai-nilai positif dan memiliki titik massa nol. Saya percaya ini adalah pendekatan yang benar. Tapi saya telah disarankan untuk menggunakan generalisasi berkelanjutan dari NB yang akan memiliki kemungkinan nol di nol dan karenanya tampaknya memungkinkan untuk berurusan dengan nol yang tepat. Karena itu pertanyaanku.
Amoeba berkata Reinstate Monica
2
Saya pikir mungkin ada beberapa kebingungan dalam saran itu: tampaknya untuk mengkonfigurasi probabilitas (yang memiliki massa titik atau distribusi NB memiliki nol) dengan kepadatan probabilitas (yang merupakan nilai akan). Kepadatan bukan nol tidak memungkinkan Anda untuk menangani angka nol yang tepat, karena masih memprediksi nol kemungkinan bahwa nilai akan muncul! 0f(0,θ)0
whuber

Jawaban:

21

Itu pertanyaan yang menarik. Grup penelitian saya telah menggunakan distribusi yang Anda rujuk selama beberapa tahun dalam perangkat lunak bioinformatika kami yang tersedia untuk umum. Sejauh yang saya tahu, distribusinya tidak memiliki nama dan tidak ada literatur di sana. Sementara makalah oleh Chandra et al (2012) yang dikutip oleh Aksakal sangat terkait, distribusi yang mereka anggap terbatas pada nilai integer untuk dan mereka tampaknya tidak memberikan ekspresi eksplisit untuk pdf.r

Untuk memberi Anda latar belakang, distribusi NB sangat banyak digunakan dalam penelitian genom untuk memodelkan data ekspresi gen yang timbul dari RNA-seq dan teknologi terkait. Data hitungan muncul ketika jumlah urutan DNA atau RNA dibaca diekstraksi dari sampel biologis yang dapat dipetakan ke masing-masing gen. Biasanya ada puluhan juta bacaan dari masing-masing sampel biologis yang dipetakan menjadi sekitar 25.000 gen. Atau orang mungkin memiliki sampel DNA dari mana membaca dipetakan ke jendela genom. Kami dan yang lainnya telah mempopulerkan pendekatan di mana NB glm dipasang pada urutan pembacaan untuk setiap gen, dan metode Bayes empiris digunakan untuk memoderasi penduga pendispersi genised (dispersiϕ=1/r). Pendekatan ini telah dikutip dalam puluhan ribu artikel jurnal dalam literatur genom, sehingga Anda bisa mendapatkan ide tentang seberapa banyak digunakan.

Grup saya menyimpan paket perangkat lunak edgeRR. Beberapa tahun yang lalu kami merevisi seluruh paket sehingga berfungsi dengan jumlah fraksional, menggunakan versi kontinu PMF NB. Kami hanya mengkonversi semua koefisien binomial dalam NB pmf ke rasio fungsi gamma dan menggunakannya sebagai pdf kontinu (campuran). Motivasi untuk ini adalah bahwa penghitungan pembacaan urutan kadang-kadang bisa fraksional karena (1) pemetaan bacaan yang ambigu ke transkriptom atau genom dan / atau (2) normalisasi penghitungan untuk mengoreksi efek teknis. Jadi penghitungan kadang-kadang penghitungan yang diharapkan atau penghitungan yang diperkirakan, bukan penghitungan yang diamati. Dan tentu saja jumlah baca bisa menjadi nol dengan probabilitas positif. Pendekatan kami memastikan bahwa hasil inferensi dari perangkat lunak kami kontinu dalam hitungan, sesuai persis dengan hasil NB diskrit ketika jumlah yang diperkirakan terjadi adalah bilangan bulat.

Sejauh yang saya tahu, tidak ada bentuk tertutup untuk konstanta normalisasi dalam pdf, juga tidak ada bentuk tertutup untuk mean atau varian. Ketika seseorang menganggap bahwa tidak ada bentuk tertutup untuk integral (konstanta Fransen-Robinson) jelas bahwa tidak ada integral integral dari kontinu NB pdf juga. Namun menurut saya, rumus mean dan varians tradisional untuk NB harus terus menjadi perkiraan yang baik untuk NB kontinu. Selain itu konstanta normalisasi harus bervariasi perlahan-lahan dengan parameter dan karenanya dapat diabaikan karena memiliki pengaruh yang dapat diabaikan dalam perhitungan kemungkinan maksimum.

01Γ(x)dz

Seseorang dapat mengkonfirmasi hipotesis ini dengan integrasi numerik. Distribusi NB muncul dalam bioinformatika sebagai campuran gamma dari distribusi Poisson (lihat artikel binomial Wikipedia Wikipedia atau McCarthy et al di bawah). Distribusi NB kontinu muncul hanya dengan mengganti distribusi Poisson dengan analog kontinu dengan pdf untuk mana adalah konstanta normalisasi untuk memastikan kerapatan terintegrasi ke 1. Misalkan misalnya bahwa . Distribusi Poisson memiliki pmf sama dengan pdf di atas pada bilangan bulat non-negatif dan, dengan

f(x;λ)=Sebuah(λ)e-λλxΓ(x+1)
x0a(λ)λ=10λ=10, rerata Poisson dan varians sama dengan 10. Integrasi numerik menunjukkan bahwa dan rerata dan varian dari distribusi kontinu sama dengan 10 hingga sekitar 4 angka signifikan. Jadi konstanta normalisasi hampir 1 dan mean dan varians hampir persis sama dengan untuk distribusi Poisson diskrit. Perkiraan ditingkatkan bahkan lebih jika kita menambahkan koreksi kontinuitas, mengintegrasikan dari ke daripada dari 0. Dengan koreksi kontinuitas, semuanya benar (konstanta normalisasi adalah 1 dan momen setuju dengan Poisson diskrit) menjadi sekitar 6 angka.a(10)=1/0.9998751/2

Dalam paket edgeR kami, kami tidak perlu membuat penyesuaian untuk fakta bahwa ada massa nol, karena kami selalu bekerja dengan kemungkinan log bersyarat atau dengan perbedaan kemungkinan log dan setiap fungsi delta membatalkan penghitungan. Ini adalah BTW tipikal untuk glms dengan distribusi probabilitas campuran. Atau, kita dapat mempertimbangkan distribusi tidak memiliki massa di nol tetapi memiliki dukungan mulai dari -1/2 daripada di nol. Baik perspektif teoretis mengarah pada perhitungan yang sama dalam praktiknya.

Meskipun kami menggunakan distribusi NB kontinu secara aktif, kami belum menerbitkan apa pun di dalamnya secara eksplisit. Artikel-artikel yang dikutip di bawah ini menjelaskan pendekatan NB untuk data genomik tetapi tidak membahas distribusi NB terus menerus secara eksplisit.

Singkatnya, saya tidak terkejut bahwa artikel yang Anda pelajari memperoleh hasil yang wajar dari versi berkelanjutan dari pdf NB, karena itulah pengalaman kami juga. Persyaratan utama adalah bahwa kita harus memodelkan mean dan varians dengan benar dan itu akan baik-baik saja asalkan data, apakah bilangan bulat atau tidak, menunjukkan bentuk yang sama dari hubungan varian-kuadrat yang sama dengan distribusi NB.

Referensi

Robinson, M., dan Smyth, GK (2008). Estimasi sampel kecil dari dispersi binomial negatif, dengan aplikasi untuk data SAGE . Biostatistik 9, 321-332.

Robinson, MD, dan Smyth, GK (2007). Tes statistik yang dimoderasi untuk menilai perbedaan dalam kelimpahan tag . Bioinformatika 23, 2881-2887.

McCarthy, DJ, Chen, Y, Smyth, GK (2012). Analisis ekspresi diferensial dari percobaan multifaktor RNA-Seq sehubungan dengan variasi biologis . Penelitian Asam Nukleat 40, 4288-4297.

Chen, Y, Lun, ATL, dan Smyth, GK (2014). Analisis ekspresi diferensial dari eksperimen RNA-seq kompleks menggunakan edgeR. Dalam: Analisis Statistik Data Urutan Generasi Selanjutnya, Somnath Datta dan Daniel S Nettleton (eds), Springer, New York, halaman 51--74. Pracetak

Lun, ATL, Chen, Y, dan Smyth, GK (2016). Ini DE-licious: resep untuk analisis ekspresi diferensial dari eksperimen RNA-seq menggunakan metode kuasi-kemungkinan di edgeR. Metode dalam Biologi Molekuler 1418, 391-416. Pracetak

Chen Y, Lun ATL, dan Smyth, GK (2016). Dari membaca ke gen ke jalur: analisis ekspresi diferensial percobaan RNA-Seq menggunakan Rsubread dan pipa kuasi-kemungkinan edgeR . F1000Research 5, 1438.

Gordon Smyth
sumber
Ini sangat membantu, @Gordon; terima kasih banyak telah meluangkan waktu untuk menuliskannya. Saya bekerja dengan data RNA-seq juga, jadi jawaban dari perspektif ini sangat berharga (saya sekarang telah menambahkan tag [bioinformatika] ke pertanyaan). Karya Anda adalah tentang ekspresi diferensial, sedangkan karya saya saat ini adalah tentang pengelompokan (makalah yang saya baca adalah Harris et al. Pada CA1 interneurons; biorxiv ). Bagaimanapun, izinkan saya mengajukan beberapa pertanyaan / klarifikasi kecil kepada Anda. [lanjutan]
amoeba berkata Reinstate Monica
(1) Anda mengatakan bahwa NB kontinu adalah campuran gamma dari Poisson kontinu. Bisakah Anda mengembangkannya sedikit, mungkin menunjukkannya sedikit lebih eksplisit? Saya pikir ini akan berguna untuk khalayak umum. Terkait dengan itu, dalam komentar di bawah pertanyaan saya dua orang menulis bahwa NB terus menerus harus merupakan campuran Gammas dengan parameter skala , tetapi hanya untuk bilangan bulat . Apakah kedua pandangan itu benar? (2) Anda mengatakan bahwa fungsi delta pada nol tidak masalah untuk GLM. Pada saat yang sama, ada literatur besar tentang GLM dengan distribusi nol-inflasi. Bagaimana itu cocok? log(p)r
Amoeba berkata Reinstate Monica
(3) Dalam kerja praktek Anda, apakah Anda menggunakan ML untuk memperkirakan semua parameter, termasuk , atau apakah Anda memperbaiki ke beberapa nilai tertentu di muka (mungkin nilai yang sama untuk semua gen?) Lalu terus konstan? Saya kira ini seharusnya lebih mudah. (Misalnya NB itu sendiri adalah keluarga dispersi eksponensial tetapi hanya dengan tetap .)rrr
Amuba mengatakan Reinstate Monica
1
@amoeba Terima kasih atas referensi biorxiv. (1) Derivasi NB sebagai campuran Poissons cukup terkenal, dan ada dalam makalah kami misalnya McCarthy et al. Derivasi NB kontinu mengikuti hanya dengan mengganti Poisson kontinu untuk Poisson. Haruskah saya menambahkan ini ke jawaban saya? Akan membuatnya panjang. Saya tidak melihat bagaimana NB kontinu dapat direpresentasikan sebagai campuran gammas. (2) Tidak, inflasi nol adalah komplikasi tambahan yang berbeda. Kami menghindari komplikasi dalam pekerjaan kami.
Gordon Smyth
1
@amoeba (3) Kami memperkirakan semua parameter. Sangat penting untuk memperkirakan penyebaran gen untuk mencapai kontrol tingkat kesalahan, dan ini harus dilakukan dengan perhatian khusus karena ukuran sampel seringkali kecil dan dimensi data sangat besar. Kami menggunakan prosedur kompleks yang melibatkan kemungkinan profil yang disesuaikan (pikirkan REML) dalam setiap gen yang terkait dengan prosedur Bayes empiris-kemungkinan Bayaran antara gen. Glem NB secara genetika kemudian dipasangkan oleh ML dengan dispersi tetap. Akhirnya, koefisien diuji menggunakan quasi-likelihood F-tes.
Gordon Smyth
19

Lihatlah makalah ini: Chandra, Nimai Kumar, dan Dilip Roy. Versi kontinu dari distribusi binomial negatif. Statistica 72, no. 1 (2012): 81 .

Ini didefinisikan dalam makalah sebagai fungsi bertahan hidup, yang merupakan pendekatan alami sejak neg binomial diperkenalkan dalam analisis reliabilitas:

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
mana dan .q=eλ,λ0,p+q=1rN,r>0
Aksakal
sumber
Terima kasih! Saya akan melihat makalah ini. (Bukan saya yang menurunkan suara.)
Amuba mengatakan Reinstate Monica
@amoeba, saya tidak khawatir tentang downvoting, ini internet :)
Aksakal
3
(Aneh bahwa balasan ini diturunkan ...) +1
whuber
Baik untuk memiliki referensi ini, tetapi idealnya saya ingin melihat diskusi yang lebih rinci di sini. Apakah fungsi bertahan hidup ini mendefinisikan distribusi yang sama dengan PDF dalam pertanyaan saya? (Ngomong-ngomong, saya merasa agak aneh bahwa penulis menggunakan koefisien binomial untuk nilai-nilai non-integer .) Beberapa komentar di atas menunjukkan bahwa ini adalah campuran dari distribusi gamma (saya tidak melihat diskusi tentang hal ini di kertas); apa parameter dari gammas ini, berapakah bobot campuran? Apakah rumus NB untuk mean dan varians berlaku untuk versi kontinu? x
Amoeba berkata Reinstate Monica
@amoeba, koran memiliki momen, mereka tidak sama dengan di NB, sayangnya
Aksakal