Asumsikan saya memiliki satu set pengamatan univariat independen dan terdistribusi secara identik dan dua hipotesis tentang bagaimana dihasilkan:x
x : diambil dari satu distribusi Gaussian dengan mean dan varian yang tidak diketahui.
x : diambil dari campuran dua Gaussians dengan mean, varian dan koefisien pencampuran yang tidak diketahui.
Jika saya mengerti dengan benar, ini adalah model bersarang karena model yang mewakili dapat dijelaskan dalam istilah jika Anda membatasi parameter dari dua Gaussians menjadi identik atau membatasi koefisien pencampuran menjadi nol untuk salah satu dari dua Gaussians. H A
Oleh karena itu, sepertinya Anda harus dapat menggunakan algoritma EM untuk memperkirakan parameter dan kemudian menggunakan Teorema Wilks untuk menentukan apakah kemungkinan data di bawah secara signifikan lebih besar daripada yang di bawah . Ada lompatan kecil keyakinan dalam asumsi bahwa algoritma EM akan menyatu dengan kemungkinan maksimum di sini, tapi itu yang saya bersedia buat.H A H 0
Saya mencoba ini dalam simulasi monte carlo, dengan asumsi bahwa memiliki 3 derajat kebebasan lebih dari (rata-rata dan varian untuk Gaussian kedua dan parameter pencampuran). Ketika saya mensimulasikan data dari , saya mendapat distribusi nilai-P yang secara substansial tidak seragam dan diperkaya untuk nilai-P kecil. (Jika EM tidak konvergen ke kemungkinan maksimum sebenarnya, kebalikan yang diharapkan akan terjadi.) Apa yang salah dengan penerapan teorema Wilks saya yang menciptakan bias ini?H 0 H 0
Inferensi pada jumlah komponen pencampuran tidak memenuhi kondisi keteraturan yang diperlukan untuk teorema Wilks karena (a) parameterρ berada pada batas ruang parameter dan (b) parameter tidak teridentifikasi di bawah nol. Ini tidak berarti bahwa distribusi rasio kemungkinan umum tidak diketahui! Jika semua 5 parameter dalam pengaturan Anda tidak diketahui, dan yang lebih penting - tidak terikat - maka distribusi statistik LR tidak konvergen. Jika semua parameter yang tidak dapat diidentifikasi dibatasi, maka statistik LR adalah monoton dalam supremum proses Gaussian terpotong. Kovarians yang tidak mudah untuk dihitung dalam kasus umum (5 parameter), dan bahkan ketika Anda memilikinya - distribusi supremum dari proses semacam itu tidak mudah diperkirakan. Untuk beberapa hasil praktis mengenai campuran dua komponen, lihat di sini. Menariknya, makalah ini menunjukkan bahwa dalam pengaturan yang agak sederhana, statistik LR sebenarnya kurang kuat daripada beberapa statistik sederhana. Untuk makalah seminal tentang menurunkan distribusi asimptotik dalam masalah seperti lihat di sini . Untuk semua tujuan praktis, Anda dapat menyesuaikan campuran menggunakan EM, dan kemudian Bootstrap distribusi statistik LR. Ini mungkin memakan waktu karena EM diketahui lambat, dan Anda perlu banyak replikasi untuk menangkap efek ukuran sampel. Lihat di sini untuk detailnya.
sumber