Bagaimana memilih yang paling cocok tanpa data yang terlalu pas? Memodelkan distribusi bimodal dengan fungsi normal N, dll

Saya memiliki distribusi nilai bimodal yang jelas, yang menurut saya cocok. Data dapat cocok dengan 2 fungsi normal (bimodal) atau dengan 3 fungsi normal. Selain itu, ada alasan fisik yang masuk akal untuk menyesuaikan data dengan 3.

Semakin banyak parameter yang diperkenalkan, semakin sempurna kesesuaiannya, karena dengan konstanta yang cukup, seseorang dapat " cocok dengan gajah ".

Berikut adalah distribusi, sesuai dengan jumlah dari 3 kurva normal (Gaussian):

Distribusi dengan

Ini adalah data untuk setiap fit. Saya tidak yakin tes apa yang harus saya lamar di sini untuk menentukan kecocokan. Data terdiri dari 91 poin.

1 Fungsi Normal:

RSS: 1.06231
X ^ 2: 3.1674
F. Tes: 0,3092

2 Fungsi Normal:

RSS: 0,010939
X ^ 2: 0,053896
F. Tes: 0.97101

3 Fungsi Normal:

RSS: 0,00536
X ^ 2: 0,02794
F. Tes: 0,99249

Apa uji statistik yang benar yang dapat diterapkan untuk menentukan mana yang paling cocok dari 3 ini? Jelas, 1 fungsi fit normal tidak memadai. Jadi bagaimana saya bisa membedakan antara 2 dan 3?

Untuk menambahkan, saya kebanyakan melakukan ini dengan Excel dan sedikit Python; Saya belum terbiasa dengan R atau bahasa statistik lainnya.

distributions normal-distribution model-selection overfitting MurphysLab
sumber

Disarankan agar saya menggunakan chi dikurangi kuadrat X ^ 2 / (Nn-1) di mana N adalah jumlah titik data dan n adalah jumlah parameter pas. Namun pentalty kecil (+/- 3) relatif terhadap jumlah titik data (91) tidak secara intuitif tampak seperti penalti yang sangat curam untuk menambahkan Gaussian lain.

MurphysLab

Anda mungkin ingin memeriksa jawaban ini (kalau-kalau Anda akan memutuskan untuk pergi Rrute). Beberapa kriteria pemilihan model disebutkan dalam jawaban ini . Akhirnya, Anda mungkin ingin mempertimbangkan metode ensemble , yang saya bahas secara singkat dalam jawaban ini , yang juga berisi tautan ke informasi yang berfokus pada Python. Anda dapat menemukan detail lebih lanjut tentang pemilihan model dan rata-rata dalam jawaban ini .

Aleksandr Blekh

Jawaban:

Berikut adalah dua cara Anda dapat mendekati masalah dalam memilih distribusi Anda:

Untuk perbandingan model, gunakan ukuran yang menghukum model tergantung pada jumlah parameter. Kriteria informasi melakukan ini. Gunakan kriteria informasi untuk memilih model mana yang akan dipertahankan, pilih model dengan kriteria informasi terendah (misalnya AIC). Aturan praktis untuk membandingkan jika perbedaan dalam AIC adalah signifikan adalah jika perbedaan dalam AIC lebih besar dari 2 (ini bukan tes hipotesis formal, lihat Menguji perbedaan AIC dari dua model non-bersarang ).

$2k - 2ln(L)$ $k$ $L$ $L = \max\limits_{\theta} L(\theta |x)$ $L(\theta |x) = Pr(x|\theta)$ $\Pr(x|\theta)$ $x$ $\theta$
Jika Anda menginginkan tes hipotesis formal, Anda bisa melanjutkan setidaknya dalam dua cara. Yang bisa dibilang lebih mudah adalah menyesuaikan distribusi Anda menggunakan bagian dari sampel Anda dan daripada menguji apakah distribusi residu secara signifikan berbeda menggunakan uji Chi-squared atau Kolgomorov-Smirnov pada sisa data. Dengan cara ini Anda tidak menggunakan data yang sama agar sesuai dan menguji model Anda seperti yang disebutkan AndrewM dalam komentar.

Anda juga bisa melakukan tes rasio kemungkinan dengan penyesuaian ke distribusi nol. Versi ini dijelaskan dalam Lo Y. et al. (2013) "Menguji jumlah komponen dalam campuran normal." Biometrika tetapi saya tidak memiliki akses ke artikel sehingga saya tidak dapat memberikan Anda rincian lebih lanjut tentang bagaimana tepatnya melakukan ini.

Either way, jika tes tidak signifikan mempertahankan distribusi dengan jumlah parameter yang lebih rendah, jika signifikan pilih yang dengan jumlah parameter yang lebih tinggi.

Chris Novak
sumber

@Momo terima kasih, ubah itu dan tambahkan persamaan untuk AIC

Chris Novak

Saya tidak 100% yakin tetapi AIC standar mungkin tidak berfungsi seperti yang diharapkan dalam model campuran karena konfigurasi campuran yang berbeda dapat menghasilkan model yang sama.

Cagdas Ozgenc

Yang saya maksud adalah Anda dapat menukar 2 gaussians (dengan mengatur mean / varians dari 1 ke 2 dan 2 ke 1 dan juga untuk campuran wight) dan masih mendapatkan model yang sama. Sejauh yang saya tahu AIC tidak berfungsi seperti yang diharapkan dalam situasi seperti itu.

Cagdas Ozgenc

@CagdasOzgenc Saya mengerti maksud Anda, tetapi tampaknya standar AIC dan BIC terbukti memadai untuk pemilihan model dalam model campuran gaussian, lihat misalnya paper projecteuclid.org/download/pdf_1/euclid.aos/1176348772

Chris Novak

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$