Saya memiliki pertanyaan yang hampir sama seperti ini: Bagaimana saya bisa memodelkan jumlah variabel acak Bernoulli secara efisien?
Tetapi pengaturannya sangat berbeda:
, , ~ 20, p_i ~ 0.1
Kami memiliki data untuk hasil variabel acak Bernoulli: ,
Jika kita memperkirakan dengan estimasi kemungkinan maksimum (dan mendapatkan ), ternyata jauh lebih besar daripada diharapkan oleh kriteria lain:
Jadi, dan tidak dapat diperlakukan sebagai independen (mereka memiliki ketergantungan kecil).
Ada beberapa batasan seperti ini: dan (dikenal), yang akan membantu dengan estimasi .
Bagaimana kita bisa mencoba memodelkan jumlah variabel acak Bernoulli dalam kasus ini?
Literatur apa yang bisa berguna untuk menyelesaikan tugas?
DIPERBARUI
Ada beberapa ide lebih lanjut:
(1) Dimungkinkan untuk mengasumsikan bahwa ketergantungan yang tidak diketahui antara dimulai setelah 1 atau lebih sukses secara seri. Jadi ketika , dan . ∑ i = 1 , K X i >0 p K + 1 → p ′ K + 1 p ′ K + 1 < p K + 1
(2) Untuk menggunakan MLE kita membutuhkan model yang paling tidak dipertanyakan. Berikut ini varian:
jika untuk setiap k jika dan , dan untuk semua k.P { X 1 , . . . , X k , X k + 1 , . . . , X N } = ( 1 - p 1 ) . . . p k P ' { X k + 1 , . . . , X N }X k = 1 P ' { X k + 1 = 1 , X k + 2 = 1 , . . . , X N = 1 } ≤ p k + 1 p k + 2 . . . p N
(3) Karena kami hanya tertarik pada kita dapat mengatur (probabilitas berhasil untuk N- (k + 1) +1 ringkasan dari ekor). Dan gunakan parametrization
(4) Gunakan MLE untuk model berdasarkan parameter dan dengan untuk (dan any ) dan beberapa batasan asli lainnya .
Apakah semuanya baik-baik saja dengan rencana ini?
DIPERBARUI 2
Beberapa contoh distribusi empiris (merah) dibandingkan dengan distribusi Poisson (biru) (rata-rata poisson adalah 2,22 dan 2,45, ukuran sampel adalah 332 dan 259):
Untuk sampel (A1, A2) dengan poisson berarti 2.28 dan 2.51 (ukuran sampel adalah 303 dan 249):
Untuk bergabung dengan samlpe A1 + A2 (ukuran sampel adalah 552):
Sepertinya beberapa koreksi ke Poisson harus menjadi model terbaik :).
Jawaban:
Salah satu pendekatan akan memodelkan dengan model linier umum (GLM). Di sini, Anda akan merumuskan , probabilitas keberhasilan pada percobaan ke - sebagai fungsi (linier logistik) dari sejarah pengamatan baru-baru ini. Jadi Anda pada dasarnya memasang GLM autoregresif di mana noise adalah Bernoulli dan fungsi tautannya adalah logit. Penyiapannya adalah:X pi i
Parameter model adalah , yang dapat diperkirakan dengan regresi logistik. (Yang harus Anda lakukan adalah mengatur matriks desain Anda menggunakan bagian yang relevan dari sejarah pengamatan di setiap percobaan, dan meneruskannya ke fungsi estimasi regresi logistik; kemungkinan log cekung sehingga ada maksimum global unik untuk parameter). Jika hasilnya memang independen maka akan ditetapkan ke nol; positif berarti bahwa kenaikan berikutnya setiap keberhasilan diamati.{b,a1,…ak} ai ai pi
Model ini tidak memberikan ekspresi sederhana untuk probabilitas atas jumlah dari 's, tapi ini adalah mudah untuk menghitung dengan simulasi (partikel penyaringan atau MCMC) sejak model memiliki struktur Markov sederhana.Xi
Model semacam ini telah digunakan dengan sukses besar untuk memodelkan dependensi temporal antara "lonjakan" neuron di otak, dan ada literatur yang luas tentang model proses titik autoregresif. Lihat, misalnya, Truccolo et al 2005 (walaupun makalah ini menggunakan Poisson alih-alih kemungkinan Bernoulli, tetapi pemetaan dari satu ke yang lain sangat mudah).
sumber
Jika ketergantungan disebabkan oleh penggumpalan, model Poisson majemuk bisa menjadi solusi sebagai model . Referensi yang agak acak adalah yang ini oleh Barbour dan Chryssaphinou.Sj
Dalam arah yang sama sekali berbeda, karena Anda menunjukkan bahwa adalah 20, dan dengan demikian relatif kecil, bisa jadi untuk membangun model grafis , tetapi saya tidak tahu apakah pengaturan dan data Anda memungkinkan. Sebagai komentar @chl, akan berguna jika Anda menggambarkan apa itu .N Xij Xi,j
Jika mewakili pengukuran berurutan, misalnya seiring waktu, dan ketergantungan terkait dengan ini, kemungkinan ketiga - dan untuk beberapa memperpanjang kompromi antara dua saran di atas - adalah dengan menggunakan model Markov tersembunyi dari yang 's.Xi,j Xi,j
sumber