Pertama-tama saya ingin menjelaskan bahwa saya bukan ahli dalam bidang ini.
Misalkan memiliki dua variabel acak dan yang binomial, masing-masing dan perhatikan di sini itu adalah sama. saya tahu itu
Membiarkan menjadi sampel untuk dan menjadi sampel untuk , apakah ada metode standar untuk memperkirakan dan ?
Inilah yang telah kami lakukan:
- ambil "sampel baru" untuk diberikan oleh ,
- menggunakan Likelihood Estimator, kami memperoleh estimasi untuk dan ,
- dengan informasi Fisher, kami mencoba memahami kesalahannya dan .
Metode ini tampaknya berhasil, tetapi kami masih memiliki beberapa keraguan. Membiarkan kelompok permutasi berakhir elemen. Untuk setiap kita dapat mempertimbangkan "sampel" yang diberikan oleh Menerapkan Pengukur Kemungkinan untuk masing-masing "sampel baru" (ada jumlah yang berbeda) kami memperoleh estimasi yang berbeda untuk dan .
Apa artinya ini? Bagaimana nilai-nilai baruberkorelasi? Ini dapat digunakan untuk menghitung kesalahan untuk?
Beberapa Komentar: Pertanyaan sebelumnya diposting di sini , tetapi seorang pengguna menyarankan saya untuk menggunakan tats / SE yang divalidasi ulang.
Dalam contoh yang saya pikirkan adalah jumlah burung di suatu daerah dan probabilitas visibilitas. Saya perlu menggabungkan daerah dengan yang serupa, jika tidak, datanya terlalu kecil. Khususnya saya perlu, jika mungkin, estimasi hanya untukdimana apriori tidak diketahui
Contoh Agar jelas dan mengingat jawaban kjetil b halvorsen, saya akan mencoba memberikan contoh praktis di sini. Misalkan kita hanya memiliki satu wilayah yang dibagi dalam dua zona dengan probabilitas yang sama dengan yang tetap dan data kami adalah sebagai berikut:
Zone 1 Zone 2
a1 b1
a2 b2
a3 b3
a4 b4
a5 b5
a6 b6
Kami kemudian dapat mempertimbangkan ini:
Zone 1+2
c1=a1+b1
c2=a2+b2
c3=a3+b3
c4
c5
c6
Kemudian kita bisa menggunakan metode kemungkinan log untuk memperkirakan dan juga dimana adalah parameter untuk binomial dari variabel yang diamati di Zone . Apakah tepat?
Sekarang, saya tahu bahwa metode kemungkinan tidak stabil (bagi saya stabil hanya berarti baik). Bisakah kita menggunakan informasi Fisher? Jika ya, informasi seperti apa yang bisa kita miliki?
Akhirnya biarlah dan dua permutasi berakhir elemen (ada pasangan berbeda) dari yang dapat kita pertimbangkan data baru yang diberikan oleh
Zona 1 + 2
c1 = a+ b
c2 = a+ b
c3 = a+ b
c4 = a+ b
c5 = a+ b
c6 = a+ b
Mengulangi metode kemungkinan, dengan variabel baru ini, kami memperoleh estimasi berbeda untuk .
Jadi pertanyaannya adalah: apakah set estimasi memberi saya beberapa informasi tentang kesalahan?
sumber
Jawaban:
Saya akan mencoba jawaban, bahkan jika saya tidak sepenuhnya jelas tentang situasinya. Formula harus disesuaikan! Masalah estimasiN dalam distribusi binomial sudah tua, dan ada beberapa makalah yang relevan. Saya akan memberikan beberapa referensi di bagian akhir.
Biarkanlah terjadi begituR daerah (dalam contoh OP R=2 ), dengan T sampel (dari interval waktu terpisah panjang yang sama) dari masing-masing daerah. Variabel yang diamati adalahxit yang merupakan variabel acak binomial independen, masing-masing dengan distribusi Bin(Ni,p) keduanya tidak diketahui. Fungsi log-likelihood menjadi
ℓ(Ni,p)=∑ln(Nixit)+lnp⋅∑xit+ln(1−p)⋅∑(Ni−xit)
Perhatikan bahwa, dalam masalah yang biasa ketika Ni hanya dikenal begitu saja p tidak diketahui, maka jumlah (atau rata-rata) dari jumlah binomial xit adalah ringkasan yang memadai, sehingga analisis dapat dilakukan dalam hal distribusi binomial dari jumlah tersebut. Namun, dalam masalah kami, karena istilah pertama dalam fungsi log-likelihood, tidak demikian halnya, dan kemungkinan log tergantung pada masing-masing penghitungan secara individual! Jadi apa yang Anda usulkan, untuk mengurangi jumlah hitungan (lebihi ), TIDAK HARUS DILAKUKAN, karena itu akan kehilangan informasi (berapa banyak, saya tidak tahu, tetapi itu bisa diselidiki ...). Mari kita mencoba memahami ini sedikit lebih baik. Pertama, kita lihat di bawah itumaxt(xit) adalah penaksir konsisten , tetapi penaksir konsisten ini bukan fungsi dari jumlah yang dijumlahkan. Itu adalah satu indikasi yang jelas bahwa penjumlahan kehilangan informasi! Perhatikan juga bahwa mean adalah penaksir yang tidak bias dari ekspektasinya yaitu , tetapi tampaknya tidak menyimpan informasi tentang dan individual, ketika tidak ada yang diketahui tentang parameter lainnya. Itu menunjukkan bahwa jika ada informasi berguna tentang di fungsi kemungkinan, itu harus terkandung dalam penyebaran nilaiNi Nip Ni p Ni xi1…,xiT , sekali lagi menunjukkan bahwa penjumlahan itu buruk. Makalah Olkin et al yang dirujuk di bawah ini menunjukkan memang bahwa penaksir metode-momen dalam banyak kasus lebih baik daripada kemungkinan maksimum! dan yang menggunakan varian empiris dari , jadi tidak dapat dihitung dari data yang dijumlahkan.xi1…,xiT
Masalah ini diketahui tidak stabil. Mari kita coba mengerti alasannya. Dalam masalah yang biasa, memperkirakan ketika diketahui, estimasi dapat dilakukan dari beberapa karakteristik kotor data, rerata. Saat mencoba memperkirakan dan , kami menggunakan properti yang jauh lebih bagus dari fungsi log-likelihood (dari data). Untuk melihat alasannya, ingatlah bahwa kita dapat memperoleh distribusi Poisson sebagai batas binomial ketika pergi ke nol dan tumbuh tanpa batas, dengan produk positif yang konstan. Jadi, jika kecil danp Ni Ni p p N p N besar, distribusi binomial akan cukup dekat dengan batas itu. Ambil dua kasus: (A) , (B) . Gambar histogram untuk dua distribusi (binomial):N=100,p=0.01 N=20,p=0.05
Di atas tabel probabilitas ini. Untuk mendeteksi dari data yang diamati yang mana dari dua distribusi yang dimiliki, adalah yang diperlukan untuk memutuskan, dalam hal ini, jika atau jika . Ini jelas sangat sulit, dan ketidakstabilan penduga yang dihasilkan hanya bisa diharapkan. Contoh ini juga menunjukkan bahwa ketidakstabilan terutama untuk kecil . Anda mengatakan Anda mengharapkan sekitar 0,7, jadi masalahnya mungkin lebih stabil. Anda bisa menyelidiki itu untuk data Anda dengan menemukan estimator kemungkinan maksimum sebagai fungsi dari diketahui , dan merencanakannya untukN=100 N=20 p p p p dalam beberapa interval kepercayaan. Atau Anda bisa menjadi bayes penuh, ini adalah kasus di mana bahkan beberapa informasi sebelumnya yang agak kabur dapat membantu.
Parameternya memang dapat diperkirakan. Jelas bahwa , sehingga memungkinkan untuk menggunakan count maksimal sebagai estimator dari . Penduga itu akan sangat konsisten, dan parameter dengan penduga yang konsisten harus dapat diperkirakan. Tetapi, seperti yang ditunjukkan contoh di atas, perkiraan tersebut hampir merupakan formalitas; dalam praktiknya distribusi dengan sangat berbeda sangat dekat, sehingga sangat lemah diperkirakan.Ni≥maxt(xit) N N N
Saya tidak akan memberikan detail metode estimasi di sini, tetapi memberikan beberapa referensi yang dapat Anda periksa:
Ingram Olkin, A John Petkau, James V Zidek: Perbandingan N estimator untuk Distribusi Binomial. JASA 1981. Ini adalah makalah klasik yang mengembangkan dan menganalisis estimasi ML dan momen, dan beberapa varian yang lebih stabil. Hal ini juga menunjukkan, yang menarik, bahwa dalam banyak kasus, estimator metode momen lebih baik daripada estimator ML!
Raymond J Carrol dan F Lombard: Catatan tentang N estimator untuk distribusi binomial. JASA 1985.p
Mengembangkan penaksir alternatif, lebih stabil & mungkin lebih baik, berdasarkan pada mengintegrasikan dari kemungkinan. Juga mencatat kurangnya kecukupan jumlah yang dijumlahkan.
J Andrew Royle: N_Mixture Model untuk Memperkirakan Ukuran Populasi dari Jumlah yang Direplikasi secara Spasial. Biometrics, 2004. Ini memberikan alternatif lain, pendekatan Bayesian yang dapat Anda coba.
Kembali ke pertanyaan konkret Anda. Anda TIDAK HARUS menjumlahkan penghitungan di dua wilayah Anda! Itu akan kehilangan informasi. Jika Anda memperkenalkan maka fungsi log-likelihood dapat ditulis sebagai fungsi , dan (atau ). Maka parameter tambahan harus dihilangkan dengan beberapa prosedur. Saya akan kembali ke sana, tetapi tidak ada waktu!N=N1+N2 N p N1 N2 N1
sumber