Saya memiliki distribusi nilai bimodal yang jelas, yang menurut saya cocok. Data dapat cocok dengan 2 fungsi normal (bimodal) atau dengan 3 fungsi normal. Selain itu, ada alasan fisik yang masuk akal untuk menyesuaikan data dengan 3.
Semakin banyak parameter yang diperkenalkan, semakin sempurna kesesuaiannya, karena dengan konstanta yang cukup, seseorang dapat " cocok dengan gajah ".
Berikut adalah distribusi, sesuai dengan jumlah dari 3 kurva normal (Gaussian):
Ini adalah data untuk setiap fit. Saya tidak yakin tes apa yang harus saya lamar di sini untuk menentukan kecocokan. Data terdiri dari 91 poin.
1 Fungsi Normal:
- RSS: 1.06231
- X ^ 2: 3.1674
- F. Tes: 0,3092
2 Fungsi Normal:
- RSS: 0,010939
- X ^ 2: 0,053896
- F. Tes: 0.97101
3 Fungsi Normal:
- RSS: 0,00536
- X ^ 2: 0,02794
- F. Tes: 0,99249
Apa uji statistik yang benar yang dapat diterapkan untuk menentukan mana yang paling cocok dari 3 ini? Jelas, 1 fungsi fit normal tidak memadai. Jadi bagaimana saya bisa membedakan antara 2 dan 3?
Untuk menambahkan, saya kebanyakan melakukan ini dengan Excel dan sedikit Python; Saya belum terbiasa dengan R atau bahasa statistik lainnya.
R
rute). Beberapa kriteria pemilihan model disebutkan dalam jawaban ini . Akhirnya, Anda mungkin ingin mempertimbangkan metode ensemble , yang saya bahas secara singkat dalam jawaban ini , yang juga berisi tautan ke informasi yang berfokus pada Python. Anda dapat menemukan detail lebih lanjut tentang pemilihan model dan rata-rata dalam jawaban ini .Jawaban:
Berikut adalah dua cara Anda dapat mendekati masalah dalam memilih distribusi Anda:
Untuk perbandingan model, gunakan ukuran yang menghukum model tergantung pada jumlah parameter. Kriteria informasi melakukan ini. Gunakan kriteria informasi untuk memilih model mana yang akan dipertahankan, pilih model dengan kriteria informasi terendah (misalnya AIC). Aturan praktis untuk membandingkan jika perbedaan dalam AIC adalah signifikan adalah jika perbedaan dalam AIC lebih besar dari 2 (ini bukan tes hipotesis formal, lihat Menguji perbedaan AIC dari dua model non-bersarang ).
Jika Anda menginginkan tes hipotesis formal, Anda bisa melanjutkan setidaknya dalam dua cara. Yang bisa dibilang lebih mudah adalah menyesuaikan distribusi Anda menggunakan bagian dari sampel Anda dan daripada menguji apakah distribusi residu secara signifikan berbeda menggunakan uji Chi-squared atau Kolgomorov-Smirnov pada sisa data. Dengan cara ini Anda tidak menggunakan data yang sama agar sesuai dan menguji model Anda seperti yang disebutkan AndrewM dalam komentar.
Anda juga bisa melakukan tes rasio kemungkinan dengan penyesuaian ke distribusi nol. Versi ini dijelaskan dalam Lo Y. et al. (2013) "Menguji jumlah komponen dalam campuran normal." Biometrika tetapi saya tidak memiliki akses ke artikel sehingga saya tidak dapat memberikan Anda rincian lebih lanjut tentang bagaimana tepatnya melakukan ini.
Either way, jika tes tidak signifikan mempertahankan distribusi dengan jumlah parameter yang lebih rendah, jika signifikan pilih yang dengan jumlah parameter yang lebih tinggi.
sumber