Saya memiliki data dengan puncak ganda yang saya coba modelkan, dan ada cukup banyak tumpang tindih di antara puncak yang tidak bisa saya perlakukan secara mandiri. Histogram data mungkin terlihat seperti ini:
Saya telah membuat dua model untuk ini: satu menggunakan dua distribusi Poisson, dan yang lainnya menggunakan dua distribusi binomial negatif (untuk menjelaskan penyebaran berlebihan). Apa cara yang tepat untuk mengetahui model mana yang cocok dengan data dengan lebih akurat?
Pikiran awal saya adalah bahwa saya dapat menggunakan tes Kolmogorov-Smirnov untuk membandingkan setiap model dengan data, kemudian melakukan tes rasio kemungkinan untuk melihat apakah ada yang secara signifikan lebih cocok. Apakah ini masuk akal? Jika demikian, saya tidak yakin bagaimana melakukan tes rasio kemungkinan. Apakah chi-square sesuai, dan berapa derajat kebebasan yang saya miliki?
Jika itu membantu, beberapa kode R (sangat disederhanakan) untuk model mungkin terlihat seperti ini:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
Sunting: Berikut adalah gambar yang dapat menjelaskan data dan distribusi yang saya pas lebih baik. Ini benar-benar jelas dari visualisasi bahwa model kedua (menggunakan distorsi binomial negatif untuk memperhitungkan penyebaran berlebih) lebih cocok. Saya ingin menunjukkan ini secara kuantitatif.
(merah - data, hijau - model)
Jawaban:
Anda dapat menggunakan metrik seperti Mean Squared Error antara nilai aktual vs yang diprediksi untuk membandingkan kedua model.
sumber
Anda tidak dapat membandingkannya secara langsung karena Binomial Negatif memiliki lebih banyak parameter. Memang Poisson "bersarang" dalam Binomial Negatif dalam arti bahwa itu adalah kasus yang membatasi, sehingga NegBin akan selalu lebih cocok daripada Poisson. Namun, hal itu memungkinkan untuk mempertimbangkan sesuatu seperti uji rasio kemungkinan tetapi fakta bahwa Poisson berada pada batas ruang parameter untuk binomial negatif dapat mempengaruhi distribusi statistik uji.
Bagaimanapun, bahkan jika perbedaan dalam jumlah parameter tidak menjadi masalah, Anda tidak dapat melakukan tes KS secara langsung karena Anda memiliki estimasi parameter, dan KS khusus untuk kasus di mana semua parameter ditentukan. Gagasan Anda menggunakan bootstrap berkaitan dengan masalah ini, tetapi bukan yang pertama (perbedaan dalam jumlah parameter)
Saya juga akan mempertimbangkan uji kelancaran goodness of fit (mis. Lihat buku Rayner dan Best), yang, misalnya, dapat menyebabkan partisi uji good-of-fit chi-square menjadi komponen-komponen yang menarik (mengukur penyimpangan dari model Poisson dalam kasus ini) - diambil untuk mengatakan urutan keempat atau urutan keenam, ini harus mengarah pada tes dengan kekuatan yang baik untuk alternatif NegBin.
(Sunting: Anda dapat membandingkan poisson dan negbin Anda melalui uji chi-squared tetapi akan memiliki daya rendah. Mempartisi chi-square dan hanya melihat pada mengatakan komponen 4-6 pertama, seperti yang dilakukan dengan tes halus mungkin lebih baik .)
sumber