Memperkirakan parameter untuk binomial

8

Pertama-tama saya ingin menjelaskan bahwa saya bukan ahli dalam bidang ini.

Misalkan memiliki dua variabel acak X dan Y yang binomial, masing-masing XB(n1,p) dan YB(n2,p), perhatikan di sini itu padalah sama. saya tahu ituZ=X+YB(n1+n2,p).

Membiarkan {x1,,xk} menjadi sampel untuk X dan {y1,,yk} menjadi sampel untuk Y, apakah ada metode standar untuk memperkirakan n=n1+n2 dan p?

Inilah yang telah kami lakukan:

  1. ambil "sampel baru" untuk Z diberikan oleh {x1+y1,,xk+yk},
  2. menggunakan Likelihood Estimator, kami memperoleh estimasi untuk n dan p,
  3. dengan informasi Fisher, kami mencoba memahami kesalahannya n dan p.

Metode ini tampaknya berhasil, tetapi kami masih memiliki beberapa keraguan. MembiarkanSk kelompok permutasi berakhir kelemen. Untuk setiapσSk kita dapat mempertimbangkan "sampel" yang diberikan oleh {x1+yσ(1),,xk+yσ(k)}. Menerapkan Pengukur Kemungkinan untuk masing-masing "sampel baru" (ada k! jumlah yang berbeda) kami memperoleh estimasi yang berbeda (nσ,pσ) untuk n dan p .

Apa artinya ini? Bagaimana nilai-nilai barunσ,pσberkorelasi? Ini dapat digunakan untuk menghitung kesalahan untukn?

Beberapa Komentar: Pertanyaan sebelumnya diposting di sini , tetapi seorang pengguna menyarankan saya untuk menggunakan tats / SE yang divalidasi ulang.

Dalam contoh yang saya pikirkan n adalah jumlah burung di suatu daerah dan pprobabilitas visibilitas. Saya perlu menggabungkan daerah dengan yang serupap, jika tidak, datanya terlalu kecil. Khususnya saya perlu, jika mungkin, estimasi hanya untukndimana p apriori tidak diketahui

Contoh Agar jelas dan mengingat jawaban kjetil b halvorsen, saya akan mencoba memberikan contoh praktis di sini. Misalkan kita hanya memiliki satu wilayah yang dibagi dalam dua zona dengan probabilitas yang sama dengan yang tetapp dan data kami adalah sebagai berikut:

Zone 1   Zone 2
  a1      b1
  a2      b2
  a3      b3
  a4      b4
  a5      b5
  a6      b6

Kami kemudian dapat mempertimbangkan ini:

Zone 1+2
c1=a1+b1
c2=a2+b2
c3=a3+b3
   c4
   c5
   c6

Kemudian kita bisa menggunakan metode kemungkinan log untuk memperkirakan N1+N2 dan juga p dimana Ni adalah parameter untuk binomial dari variabel yang diamati di Zone i. Apakah tepat?

Sekarang, saya tahu bahwa metode kemungkinan tidak stabil (bagi saya stabil hanya berarti baik). Bisakah kita menggunakan informasi Fisher? Jika ya, informasi seperti apa yang bisa kita miliki?

Akhirnya biarlah σ dan τ dua permutasi berakhir 6 elemen (ada (6!)2pasangan berbeda) dari yang dapat kita pertimbangkan data baru yang diberikan oleh

Zona 1 + 2
c1 = aσ(1)+ bτ(1)
c2 = aσ(2)+ bτ(2)
c3 = aσ(3)+ bτ(3)
c4 = aσ(4)+ bτ(4)
c5 = aσ(5)+ bτ(5)
c6 = aσ(6)+ bτ(6)

Mengulangi metode kemungkinan, dengan variabel baru ini, kami memperoleh estimasi berbeda untuk N1+N2.

Jadi pertanyaannya adalah: apakah set estimasi memberi saya beberapa informasi tentang kesalahan?

amorvincomni
sumber
Anda harus memberikan lebih banyak detail. Berapa banyak wilayah yang ingin Anda gunakan (anggap memiliki parameter visibilitas yang samap? (Q mengasumsikan dua))? Berapa banyak sampel yang Anda miliki untuk setiap wilayah? (Saya berasumsi itu adalah hitungan selama interval waktu terpisah dengan panjang yang sama?) Karena parameter minat Andan1 dan n2pendekatan penjumlahan mereka tidak bisa benar! akan kembali ketika Anda menjawab ...
kjetil b halvorsen
@kjetilbhalvorsen: Jumlah wilayah di Q saya adalah 2dan saya punya 6 sampel untuk setiap daerah. Hitungan melebihi interval dengan panjang yang sama (tetapinidiasumsikan konstan). saya tertarik dengann1+n2 dan tidak di tunggal ni. Saya harap ini bisa membantu.
amorvincomni
Pertanyaan lain: Berapa besar (kurang-lebih) hitungannya? Dalam puluhan? ratusan? ribuan? Apakah Anda tahu tentang nilai kemungkinan darip? Sangat rendah? (Jika jumlah lebih besar, maka mungkin kita dapat mencoba pendekatan poisson?
kjetil b halvorsen
Saya mencoba untuk menjumlahkan penghitungan karena angkanya rendah. Pada kenyataannya saya memiliki 5 zona berbeda (zona sesuai dengan daerah dengan probabilitas yang sama.) Di setiap zona saya memiliki sesuatu seperti15daerah. Berbagai jumlah bervariasi dari0 untuk 25 (itu ni tampaknya tidak terkait dan dapat bervariasi dari 0 untuk sesuatu yang lebih dari 25). Tetapi data agregat dapat bervariasi dari permutasi yang kita pilih. (Misalnya di zona10 daerah dengan 6 Hitungan untuk setiap wilayah ada (6!)10agregasi yang berbeda). Akhirnyap tampaknya dekat dengan .7.
amorvincomni
2
Anda juga mungkin akan mendapat banyak manfaat dari memiliki prior informatif, karena ada masalah identifikasi antara n dan p.
Arthur B.

Jawaban:

12

Saya akan mencoba jawaban, bahkan jika saya tidak sepenuhnya jelas tentang situasinya. Formula harus disesuaikan! Masalah estimasiNdalam distribusi binomial sudah tua, dan ada beberapa makalah yang relevan. Saya akan memberikan beberapa referensi di bagian akhir.

Biarkanlah terjadi begitu R daerah (dalam contoh OP R=2), dengan Tsampel (dari interval waktu terpisah panjang yang sama) dari masing-masing daerah. Variabel yang diamati adalahxit yang merupakan variabel acak binomial independen, masing-masing dengan distribusi Bin(Ni,p)keduanya tidak diketahui. Fungsi log-likelihood menjadi

(Ni,p)=ln(Nixit)+lnpxit+ln(1p)(Nixit)
Perhatikan bahwa, dalam masalah yang biasa ketika Ni hanya dikenal begitu saja p tidak diketahui, maka jumlah (atau rata-rata) dari jumlah binomial xitadalah ringkasan yang memadai, sehingga analisis dapat dilakukan dalam hal distribusi binomial dari jumlah tersebut. Namun, dalam masalah kami, karena istilah pertama dalam fungsi log-likelihood, tidak demikian halnya, dan kemungkinan log tergantung pada masing-masing penghitungan secara individual! Jadi apa yang Anda usulkan, untuk mengurangi jumlah hitungan (lebihi), TIDAK HARUS DILAKUKAN, karena itu akan kehilangan informasi (berapa banyak, saya tidak tahu, tetapi itu bisa diselidiki ...). Mari kita mencoba memahami ini sedikit lebih baik. Pertama, kita lihat di bawah itumaxt(xit)adalah penaksir konsisten , tetapi penaksir konsisten ini bukan fungsi dari jumlah yang dijumlahkan. Itu adalah satu indikasi yang jelas bahwa penjumlahan kehilangan informasi! Perhatikan juga bahwa mean adalah penaksir yang tidak bias dari ekspektasinya yaitu , tetapi tampaknya tidak menyimpan informasi tentang dan individual, ketika tidak ada yang diketahui tentang parameter lainnya. Itu menunjukkan bahwa jika ada informasi berguna tentang di fungsi kemungkinan, itu harus terkandung dalam penyebaran nilaiNiNipNipNixi1,xiT, sekali lagi menunjukkan bahwa penjumlahan itu buruk. Makalah Olkin et al yang dirujuk di bawah ini menunjukkan memang bahwa penaksir metode-momen dalam banyak kasus lebih baik daripada kemungkinan maksimum! dan yang menggunakan varian empiris dari , jadi tidak dapat dihitung dari data yang dijumlahkan.xi1,xiT

Masalah ini diketahui tidak stabil. Mari kita coba mengerti alasannya. Dalam masalah yang biasa, memperkirakan ketika diketahui, estimasi dapat dilakukan dari beberapa karakteristik kotor data, rerata. Saat mencoba memperkirakan dan , kami menggunakan properti yang jauh lebih bagus dari fungsi log-likelihood (dari data). Untuk melihat alasannya, ingatlah bahwa kita dapat memperoleh distribusi Poisson sebagai batas binomial ketika pergi ke nol dan tumbuh tanpa batas, dengan produk positif yang konstan. Jadi, jika kecil danpNiNippNpNbesar, distribusi binomial akan cukup dekat dengan batas itu. Ambil dua kasus: (A) , (B) . Gambar histogram untuk dua distribusi (binomial):N=100,p=0.01N=20,p=0.05

> zapsmall(cbind(0:20,pA,pB))
               pA       pB
 [1,]  0 0.366032 0.358486
 [2,]  1 0.369730 0.377354
 [3,]  2 0.184865 0.188677
 [4,]  3 0.060999 0.059582
 [5,]  4 0.014942 0.013328
 [6,]  5 0.002898 0.002245
 [7,]  6 0.000463 0.000295
 [8,]  7 0.000063 0.000031
 [9,]  8 0.000007 0.000003
[10,]  9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000

Di atas tabel probabilitas ini. Untuk mendeteksi dari data yang diamati yang mana dari dua distribusi yang dimiliki, adalah yang diperlukan untuk memutuskan, dalam hal ini, jika atau jika . Ini jelas sangat sulit, dan ketidakstabilan penduga yang dihasilkan hanya bisa diharapkan. Contoh ini juga menunjukkan bahwa ketidakstabilan terutama untuk kecil . Anda mengatakan Anda mengharapkan sekitar 0,7, jadi masalahnya mungkin lebih stabil. Anda bisa menyelidiki itu untuk data Anda dengan menemukan estimator kemungkinan maksimum sebagai fungsi dari diketahui , dan merencanakannya untukN=100N=20ppppdalam beberapa interval kepercayaan. Atau Anda bisa menjadi bayes penuh, ini adalah kasus di mana bahkan beberapa informasi sebelumnya yang agak kabur dapat membantu.

Parameternya memang dapat diperkirakan. Jelas bahwa , sehingga memungkinkan untuk menggunakan count maksimal sebagai estimator dari . Penduga itu akan sangat konsisten, dan parameter dengan penduga yang konsisten harus dapat diperkirakan. Tetapi, seperti yang ditunjukkan contoh di atas, perkiraan tersebut hampir merupakan formalitas; dalam praktiknya distribusi dengan sangat berbeda sangat dekat, sehingga sangat lemah diperkirakan.Nimaxt(xit)NNN

Saya tidak akan memberikan detail metode estimasi di sini, tetapi memberikan beberapa referensi yang dapat Anda periksa:

Ingram Olkin, A John Petkau, James V Zidek: Perbandingan N estimator untuk Distribusi Binomial. JASA 1981. Ini adalah makalah klasik yang mengembangkan dan menganalisis estimasi ML dan momen, dan beberapa varian yang lebih stabil. Hal ini juga menunjukkan, yang menarik, bahwa dalam banyak kasus, estimator metode momen lebih baik daripada estimator ML!

Raymond J Carrol dan F Lombard: Catatan tentang N estimator untuk distribusi binomial. JASA 1985.
Mengembangkan penaksir alternatif, lebih stabil & mungkin lebih baik, berdasarkan pada mengintegrasikan dari kemungkinan. Juga mencatat kurangnya kecukupan jumlah yang dijumlahkan.p

J Andrew Royle: N_Mixture Model untuk Memperkirakan Ukuran Populasi dari Jumlah yang Direplikasi secara Spasial. Biometrics, 2004. Ini memberikan alternatif lain, pendekatan Bayesian yang dapat Anda coba.

Kembali ke pertanyaan konkret Anda. Anda TIDAK HARUS menjumlahkan penghitungan di dua wilayah Anda! Itu akan kehilangan informasi. Jika Anda memperkenalkan maka fungsi log-likelihood dapat ditulis sebagai fungsi , dan (atau ). Maka parameter tambahan harus dihilangkan dengan beberapa prosedur. Saya akan kembali ke sana, tetapi tidak ada waktu! N=N1+N2NpN1N2N1

kjetil b halvorsen
sumber
1
Terima kasih atas jawaban Anda, sayangnya saya tidak bisa menjawab. Saya minta maaf jika saya tidak jelas, tetapi untuk jumlah yang saya maksudkan jumlahnya di berbagai zona. Saya melakukan peningkatan dalam Q saya, menambahkan contoh (teoritis) dan beberapa pertanyaan yang mungkin lebih dimengerti.
amorvincomni
1
Meskipun jawaban ini sepenuhnya terperinci, saya masih punya satu keraguan: misalkan saya memiliki satu kamera untuk setiap wilayah, dan anggaplah bahwa kamera berada di daerah tetangga (tetapi tanpa aliran). Saya hanya tertarik pada dan bukan pada nilai tunggal dan . Apakah ada perbedaan dengan hanya mengambil satu kamera besar? Variabel yang diamati dari kamera besar masih binomial dengan parameterApa yang saya kehilangan (menurut saya), hanya informasi tentang perilaku lokal, tetapi ini tidak penting bagi saya. NN1N2yt1=xt1+xt2N,p.
amorvincomni
1
Itu tidak benar! Informasi tentang terkandung dalam variasi dalam jumlah individu! N
kjetil b halvorsen