Biarkan menjadi distribusi gabungan dari dua variabel kategori , dengan . Katakanlah sampel diambil dari distribusi ini, tetapi kami hanya diberi jumlah marginal, yaitu untuk : X , Y x , y ∈ { 1 , ... , K } n j = 1 , ... , K
Berapakah estimator kemungkinan maksimum untuk , diberikan ? Apakah ini diketahui? Layak secara komputasi? Apakah ada pendekatan masuk akal lain untuk masalah ini selain ML? S j , T j
maximum-entropy
Jawaban:
Jenis masalah ini dipelajari dalam makalah "Augmentasi Data dalam Tabel Kontingensi Multi-arah Dengan Total Marginal Tetap" oleh Dobra et al (2006). Biarkan menunjukkan parameter model, biarkan menunjukkan tabel bilangan bulat yang tidak teramati untuk setiap pasangan , dan biarkan adalah himpunan tabel bilangan bulat yang marginalnya sama dengan jumlah . Maka probabilitas mengamati jumlah marginal adalah: manan ( x , y ) C ( S , T ) ( S , T ) ( S , T ) p ( S , T | θ ) = ∑ n ∈ C ( S , T ) p ( n | θ ) p ( n | θ ) n θ θθ n ( x , y) C( S, T) (S,T) (S,T)
Pendekatan yang berbeda akan menggunakan metode variasi untuk memperkirakan jumlah lebih dari . Batasan marginal dapat dikodekan sebagai grafik faktor dan inferensi atas dapat dilakukan dengan menggunakan Propagasi Ekspektasi. θn θ
Untuk melihat mengapa masalah ini sulit dan tidak mengakui solusi sepele, pertimbangkan kasus . Mengambil sebagai jumlah baris dan sebagai jumlah kolom, ada dua tabel jumlah yang memungkinkan: Oleh karena itu fungsi kemungkinan adalah The MLE untuk masalah ini adalah yang sesuai dengan asumsi tabel di sebelah kiri. Sebaliknya, perkiraan yang akan Anda dapatkan dengan mengasumsikan independensi adalah S T [ 0 1 2 0 ]S= ( 1 , 2 ) , T= ( 2 , 1 ) S T p(S,T | q)=3 p 12 p 2 21 +6 p 11 p 21 p 22 p x , y = [ 0 1 / 3 2 / 3 0 ] q x , y = [ 1 / 3 2 / 3 ] [ 2 /3
sumber
Seperti yang telah ditunjukkan oleh @Glen_b, ini tidak cukup ditentukan. Saya tidak berpikir Anda dapat menggunakan kemungkinan maksimum kecuali Anda dapat menentukan kemungkinan sepenuhnya.
Jika Anda bersedia untuk mengambil kemandirian, maka masalahnya cukup sederhana (kebetulan, saya pikir solusinya akan menjadi solusi entropi maksimum yang telah disarankan). Jika Anda tidak mau atau tidak dapat memaksakan struktur tambahan dalam masalah Anda dan Anda masih menginginkan semacam pendekatan terhadap nilai-nilai sel, mungkin Anda bisa menggunakan batas kopula Fréchet-Hoeffding . Tanpa asumsi tambahan, saya tidak berpikir Anda bisa melangkah lebih jauh.
sumber
Sunting: Jawaban ini didasarkan pada asumsi yang salah bahwa kemungkinan jumlah marginal yang diberikan hanyalah fungsi dari probabilitas marginal dan . Saya masih memikirkannya.px,y px=∑ypx,y py=∑xpx,y
Hal-hal yang salah berikut:
Seperti disebutkan dalam komentar, masalah dengan menemukan "the" estimator maksimum-kemungkinan untuk adalah bahwa itu tidak unik. Sebagai contoh, pertimbangkan kasus dengan biner dan marginal . Dua penaksirpx,y X,Y S1=S2=T1=T2=10
memiliki probabilitas marginal yang sama dan dalam semua kasus, dan karenanya memiliki kemungkinan yang sama (keduanya memaksimalkan fungsi kemungkinan, seperti yang dapat Anda verifikasi).px py
Memang, tidak peduli apa marjinalnya (selama dua di antaranya adalah nol di setiap dimensi), solusi kemungkinan maksimum tidak unik. Saya akan membuktikan ini untuk kasus biner. Biarkan menjadi solusi kemungkinan-maksimum. Tanpa kehilangan keumuman misalkan . Kemudian memiliki margin yang sama dan dengan demikian juga merupakan solusi kemungkinan-maksimum.p=(acbd) 0<a≤d p=(0c+ab+ad−a)
Jika Anda ingin tambahan menerapkan batasan entropi maksimum, maka Anda mendapatkan solusi unik, yang seperti F. Tussell menyatakan adalah solusi di mana independen. Anda dapat melihat ini sebagai berikut:X,Y
Entropi dari distribusi adalah ; memaksimalkan subjek ke dan (setara, mana dan ) menggunakan pengganda Lagrange memberikan persamaan:H(p)=−∑x,ypx,ylogpx,y ∑xpx,y=py ∑ypx,y=px g⃗ (p)=0 gx(p)=∑ypx,y−px gy(p)=∑xpx,y−py
Semua gradien dari masing-masing adalah 1, jadi koordinasikan dengan bijak inigk
ditambah batasan aslinya dan . Anda dapat memverifikasi bahwa ini puas ketika dan , memberikanΣ y p x , y = p x e 1 / 2 - λ x = p x e∑xpx,y=py ∑ypx,y=px e1/2−λx=px e1/2−λy=py
sumber