Bagaimana memodelkan jumlah variabel acak Bernoulli untuk data dependen?

9

Saya memiliki pertanyaan yang hampir sama seperti ini: Bagaimana saya bisa memodelkan jumlah variabel acak Bernoulli secara efisien?

Tetapi pengaturannya sangat berbeda:

$S=\sum_{i=1,N}{X_i}$ , , ~ 20, ~ 0.1 $P(X_{i}=1)=p_i$ $N$ $p_i$
Kami memiliki data untuk hasil variabel acak Bernoulli: $X_{i,j}$ , $S_j=\sum_{i=1,N}{X_{i,j}}$
Jika kita memperkirakan $p_i$ dengan estimasi kemungkinan maksimum (dan mendapatkan $\hat p^{MLE}_i$ ), ternyata $\hat P\{S=3\} (\hat p^{MLE}_i)$ jauh lebih besar daripada diharapkan oleh kriteria lain: $\hat P\{S=3\} (\hat p^{MLE}_i) - \hat P^{expected} \{S=3\}\approx 0.05$
Jadi, $X_{i}$ dan $X_{j}$ $(j>k)$ tidak dapat diperlakukan sebagai independen (mereka memiliki ketergantungan kecil).
Ada beberapa batasan seperti ini: $p_{i+1} \ge p_i$ dan $\sum_{s \le 2}\hat P\{S=s\}=A$ (dikenal), yang akan membantu dengan estimasi $P\{S\}$ .

Bagaimana kita bisa mencoba memodelkan jumlah variabel acak Bernoulli dalam kasus ini?

Literatur apa yang bisa berguna untuk menyelesaikan tugas?

DIPERBARUI

Ada beberapa ide lebih lanjut:

(1) Dimungkinkan untuk mengasumsikan bahwa ketergantungan yang tidak diketahui antara dimulai setelah 1 atau lebih sukses secara seri. Jadi ketika , dan . ${X_i}$ $\sum_{i=1,K}{X_i} > 0$ $p_{K+1} \to p'_{K+1}$ $p'_{K+1} < p_{K+1}$

(2) Untuk menggunakan MLE kita membutuhkan model yang paling tidak dipertanyakan. Berikut ini varian:

$P\{X_1,...,X_k\}= (1-p_1) ... (1-p_k)$ jika untuk setiap k jika dan , dan untuk semua k. $\sum_{i=1,k}{X_i} = 0$ $P\{X_1,...,X_k,X_{k+1},...,X_N\}= (1-p_1) ... p_k P'\{X_{k+1},...,X_N\}$ $\sum_{i=1,k-1}{X_i} = 0$ $X_k = 1$ $P'\{X_{k+1}=1,X_{k+2}=1,...,X_N=1\} \le p_{k+1} p_{k+2} ... p_N$

(3) Karena kami hanya tertarik pada kita dapat mengatur (probabilitas berhasil untuk N- (k + 1) +1 ringkasan dari ekor). Dan gunakan parametrization $P\{S\}$ $P'\{X_{k+1},...,X_N\} \approx P''\{\sum_{i=1,k}{X_i}=s' ; N-(k+1)+1=l\}$ $\sum_{i=k+1,N}{X_i}$ $P''\{\sum_{i=k,N}{X_i}=s' ; N-k+1=l\}= p_{s',l}$

(4) Gunakan MLE untuk model berdasarkan parameter dan dengan untuk (dan any ) dan beberapa batasan asli lainnya . $p_1,...,p_N$ $p_{0,1}, p_{1,1}; p_{0,2}, p_{1,2}, p_{2,2};...$ $p_{s',l}=0$ $s' \ge 6$ $l$

Apakah semuanya baik-baik saja dengan rencana ini?

DIPERBARUI 2

Beberapa contoh distribusi empiris (merah) dibandingkan dengan distribusi Poisson (biru) (rata-rata poisson adalah 2,22 dan 2,45, ukuran sampel adalah 332 dan 259): $P\{S\}$

sampel1 sampel2

Untuk sampel (A1, A2) dengan poisson berarti 2.28 dan 2.51 (ukuran sampel adalah 303 dan 249):

sampel3 sampel4

Untuk bergabung dengan samlpe A1 + A2 (ukuran sampel adalah 552):

sampel 3 + sampel 4

Sepertinya beberapa koreksi ke Poisson harus menjadi model terbaik :).

distributions modeling binomial random-variable non-independent Andrey
sumber

2

Apa ?

X_{i, j}

$X_{i,j}$

chl

1

@Andrey Rumus dalam (2) dan kendala kedua dalam (4) tidak masuk akal: apa arti topi di (4)? Apa itu ? (Anda hanya mendefinisikan , bukan ) Apakah ungkapan dalam (4) jumlah dari tiga produk atau sesuatu yang lain?

S

$S$

S_{j}

$S_j$

S

$S$

whuber

X_{i, j}

$X_{i,j}$ adalah hasil acak Bernoulli (hasil ke-i dalam seri ke-j), adalah hasil ke-j dari jumlah (jumlah di atas seri). adalah variabel acak dari penjumlahan tersebut; topi dalam (4) berarti taksiran. Jadi ada beberapa informasi tambahan tentang jumlah nilai terendah . Maaf bila membingungkan.

S_{j}

$S_j$

S

$S$

S

$S$

Andrey

3

Salah satu pendekatan akan memodelkan dengan model linier umum (GLM). Di sini, Anda akan merumuskan , probabilitas keberhasilan pada percobaan ke - sebagai fungsi (linier logistik) dari sejarah pengamatan baru-baru ini. Jadi Anda pada dasarnya memasang GLM autoregresif di mana noise adalah Bernoulli dan fungsi tautannya adalah logit. Penyiapannya adalah: $X$ $p_i$ $i$

$p_i = f(b + a_1 X_{i-1} + a_2 X_{i-2} + \ldots a_k X_{i-k})$ , di mana

$f(x) = \frac{1}{1+\exp(x)}$ , dan

$X_i \sim Bernoulli(p_i)$

Parameter model adalah , yang dapat diperkirakan dengan regresi logistik. (Yang harus Anda lakukan adalah mengatur matriks desain Anda menggunakan bagian yang relevan dari sejarah pengamatan di setiap percobaan, dan meneruskannya ke fungsi estimasi regresi logistik; kemungkinan log cekung sehingga ada maksimum global unik untuk parameter). Jika hasilnya memang independen maka akan ditetapkan ke nol; positif berarti bahwa kenaikan berikutnya setiap keberhasilan diamati. $\{b, a_1, \ldots a_k\}$ $a_i$ $a_i$ $p_i$

Model ini tidak memberikan ekspresi sederhana untuk probabilitas atas jumlah dari 's, tapi ini adalah mudah untuk menghitung dengan simulasi (partikel penyaringan atau MCMC) sejak model memiliki struktur Markov sederhana. $X_i$

Model semacam ini telah digunakan dengan sukses besar untuk memodelkan dependensi temporal antara "lonjakan" neuron di otak, dan ada literatur yang luas tentang model proses titik autoregresif. Lihat, misalnya, Truccolo et al 2005 (walaupun makalah ini menggunakan Poisson alih-alih kemungkinan Bernoulli, tetapi pemetaan dari satu ke yang lain sangat mudah).

jpillow
sumber

1

Jika ketergantungan disebabkan oleh penggumpalan, model Poisson majemuk bisa menjadi solusi sebagai model . Referensi yang agak acak adalah yang ini oleh Barbour dan Chryssaphinou. $S_j$

Dalam arah yang sama sekali berbeda, karena Anda menunjukkan bahwa adalah 20, dan dengan demikian relatif kecil, bisa jadi untuk membangun model grafis , tetapi saya tidak tahu apakah pengaturan dan data Anda memungkinkan. Sebagai komentar @chl, akan berguna jika Anda menggambarkan apa itu . $N$ $X_{ij}$ $X_{i,j}$

Jika mewakili pengukuran berurutan, misalnya seiring waktu, dan ketergantungan terkait dengan ini, kemungkinan ketiga - dan untuk beberapa memperpanjang kompromi antara dua saran di atas - adalah dengan menggunakan model Markov tersembunyi dari yang 's. $X_{i,j}$ $X_{i,j}$

NRH
sumber

X_{i, j}

${X_{i,j}}$ adalah hasil acak Bernoulli. Maaf atas ketidakakuratan ini. Jadi, adalah jumlah skor untuk tim olahraga untuk interval waktu yang sama berurutan. Ternyata setelah gol pertama dicetak, probabilitas gol berikutnya dalam interval akan berbeda.

X_{i}

${X_{i}}$

Andrey

Bagaimana memodelkan jumlah variabel acak Bernoulli untuk data dependen?

Jawaban: