Mengukur good-of-fit dalam model yang menggabungkan dua distribusi

9

Saya memiliki data dengan puncak ganda yang saya coba modelkan, dan ada cukup banyak tumpang tindih di antara puncak yang tidak bisa saya perlakukan secara mandiri. Histogram data mungkin terlihat seperti ini:

teks alternatif

Saya telah membuat dua model untuk ini: satu menggunakan dua distribusi Poisson, dan yang lainnya menggunakan dua distribusi binomial negatif (untuk menjelaskan penyebaran berlebihan). Apa cara yang tepat untuk mengetahui model mana yang cocok dengan data dengan lebih akurat?

Pikiran awal saya adalah bahwa saya dapat menggunakan tes Kolmogorov-Smirnov untuk membandingkan setiap model dengan data, kemudian melakukan tes rasio kemungkinan untuk melihat apakah ada yang secara signifikan lebih cocok. Apakah ini masuk akal? Jika demikian, saya tidak yakin bagaimana melakukan tes rasio kemungkinan. Apakah chi-square sesuai, dan berapa derajat kebebasan yang saya miliki?

Jika itu membantu, beberapa kode R (sangat disederhanakan) untuk model mungkin terlihat seperti ini:

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

Sunting: Berikut adalah gambar yang dapat menjelaskan data dan distribusi yang saya pas lebih baik. Ini benar-benar jelas dari visualisasi bahwa model kedua (menggunakan distorsi binomial negatif untuk memperhitungkan penyebaran berlebih) lebih cocok. Saya ingin menunjukkan ini secara kuantitatif. teks alternatif

(merah - data, hijau - model)

chrisamiller
sumber
Anda tahu distribusi probabilitas dari nilai-nilai di setiap bin ? Label sumbu y membuat saya berpikir bahwa ini bisa Poissonian atau Multinomial? (dengan asumsi model memberi Anda rata-rata di setiap tempat sampah)
Andre Holzner
Data pada dasarnya diambil dari dua proses Poisson, tetapi ada variabel tersembunyi yang tidak dapat saya koreksi, yang mengarah ke penyebaran berlebihan. Jadi, binomial negatif jelas merupakan model yang lebih baik. (lihat gambar / teks baru yang saya tambahkan di atas). Saya perlu menunjukkan bahwa model nb saya lebih cocok secara kuantitatif.
chrisamiller
1
Bagaimana dengan metrik seperti Mean Squared Error antara nilai aktual vs yang diprediksi?
hrmm - Saya suka gagasan itu, Srikant. Ini jauh lebih sederhana dari apa yang saya pikirkan, tetapi masih masuk akal. Lemparkan ke jawaban di bawah ini agar saya dapat memberi kredit dan mengirimkan beberapa perwakilan dengan cara Anda. Saya masih tertarik mendengar metode lain, tetapi ini mungkin berhasil untuk saat ini.
chrisamiller

Jawaban:

4

Anda dapat menggunakan metrik seperti Mean Squared Error antara nilai aktual vs yang diprediksi untuk membandingkan kedua model.


sumber
1
Ini adalah jawaban yang tepat untuk situasi khusus saya, meskipun tanggapan Glen_b membantu saya belajar lebih banyak. Jadi lebih banyak suara positif baginya, jawaban diterima untuk Srikant. Semua orang menang - terima kasih semua.
chrisamiller
8

Anda tidak dapat membandingkannya secara langsung karena Binomial Negatif memiliki lebih banyak parameter. Memang Poisson "bersarang" dalam Binomial Negatif dalam arti bahwa itu adalah kasus yang membatasi, sehingga NegBin akan selalu lebih cocok daripada Poisson. Namun, hal itu memungkinkan untuk mempertimbangkan sesuatu seperti uji rasio kemungkinan tetapi fakta bahwa Poisson berada pada batas ruang parameter untuk binomial negatif dapat mempengaruhi distribusi statistik uji.

Bagaimanapun, bahkan jika perbedaan dalam jumlah parameter tidak menjadi masalah, Anda tidak dapat melakukan tes KS secara langsung karena Anda memiliki estimasi parameter, dan KS khusus untuk kasus di mana semua parameter ditentukan. Gagasan Anda menggunakan bootstrap berkaitan dengan masalah ini, tetapi bukan yang pertama (perbedaan dalam jumlah parameter)

Saya juga akan mempertimbangkan uji kelancaran goodness of fit (mis. Lihat buku Rayner dan Best), yang, misalnya, dapat menyebabkan partisi uji good-of-fit chi-square menjadi komponen-komponen yang menarik (mengukur penyimpangan dari model Poisson dalam kasus ini) - diambil untuk mengatakan urutan keempat atau urutan keenam, ini harus mengarah pada tes dengan kekuatan yang baik untuk alternatif NegBin.

(Sunting: Anda dapat membandingkan poisson dan negbin Anda melalui uji chi-squared tetapi akan memiliki daya rendah. Mempartisi chi-square dan hanya melihat pada mengatakan komponen 4-6 pertama, seperti yang dilakukan dengan tes halus mungkin lebih baik .)

Glen_b -Reinstate Monica
sumber
Terima kasih. Itu mengklarifikasi banyak hal dan membuka banyak pertanyaan baru yang harus saya lakukan penelitian. Saya kira pertanyaan utama saya adalah, apakah yang Anda katakan berarti sesuatu yang lebih sederhana, seperti hanya mengambil root berarti kuadrat kesalahan, bukankah cara yang valid untuk mendekati masalah ini? Saya akui bahwa itu mungkin tidak sekuat dan tidak akan memberi saya nilai-p, tetapi itu adalah sesuatu yang bisa saya lakukan dengan cepat ketika saya mencoba melacak salinan buku yang Anda referensi. Pikiran apa pun akan dihargai.
chrisamiller
2
bayangkan Anda memiliki satu set poin (x, y) dan Anda sedang mempertimbangkan apakah Anda mungkin cocok dengan garis lurus atau kuadrat. Jika Anda membandingkan RMSE, kuadratik akan selalu mengalahkan garis lurus , karena garis itu kuadratik dengan satu parameter ditetapkan ke nol: jika estimasi kuadrat terkecil dari parameter tersebut sama dengan nol (yang memiliki probabilitas nol untuk respon kontinu), itu dasi, dan dalam setiap kasus garis lainnya hilang. Itu sama dengan Poisson vs binomial negatif - Binomial Negatif gratis selalu dapat memuat setidaknya juga Poisson gratis.
Glen_b -Reinstate Monica
Penjelasan yang bagus - Saya mengerti apa yang Anda katakan sekarang. Saya pikir kasus saya sedikit berbeda, karena saya tidak melakukan regresi untuk mendapatkan kecocokan, tetapi saya mendasarkan parameter NB tambahan pada informasi luar (saya berharap rasio var / mean menjadi N). Karena Poisson adalah kasus khusus di mana N = 1, yang saya benar-benar membandingkan adalah pilihan N. Saya setuju bahwa jika saya melakukan regresi, NB akan selalu dapat menemukan kecocokan yang lebih baik, karena itu kurang dibatasi. Dalam kasus saya, di mana saya memilih nilai untuk N di muka, tentu akan mungkin untuk memilih beberapa nilai gila dari N yang membuat kecocokan lebih buruk.
chrisamiller
Saya pasti akan membaca tentang tes kelancaran kebaikan yang Anda sarankan. Terima kasih atas jawaban yang informatif.
chrisamiller
Maaf karena tidak menyadari bahwa data tidak memilih parameter overdispersi. Mungkin ada beberapa argumen untuk melakukannya dengan cara Anda, tetapi jika perkiraan eksternal cenderung mencerminkan apa yang sebenarnya Anda amati, NB mungkin masih memiliki beberapa keuntungan tergantung pada keadaan.
Glen_b -Reinstate Monica