Strategi untuk menentukan model yang tepat untuk menghitung data

16

Apa strategi yang tepat untuk memutuskan model mana yang akan digunakan dengan data jumlah? Saya telah menghitung data yang saya perlu model sebagai model bertingkat dan direkomendasikan kepada saya (di situs ini) bahwa cara terbaik untuk melakukannya adalah melalui bug atau MCMCglmm. Namun saya masih mencoba untuk belajar tentang statistik bayesian, dan saya pikir saya pertama-tama harus mencoba mencocokkan data saya sebagai model linier umum dan mengabaikan struktur data yang bersarang (supaya saya bisa mendapatkan ide yang kabur tentang apa yang diharapkan).

Sekitar 70% dari data adalah 0 dan rasio varians terhadap rata-rata adalah 33. Jadi data cukup tersebar.

Setelah mencoba sejumlah opsi yang berbeda (termasuk poisson, binomial negatif, kuasi dan model nol inflasi) saya melihat sangat sedikit konsistensi dalam hasil (bervariasi dari semuanya signifikan hingga tidak ada yang signifikan).

Bagaimana saya bisa membuat keputusan tentang jenis model yang akan dipilih berdasarkan inflasi 0 dan dispersi berlebihan? Misalnya, bagaimana saya dapat menyimpulkan bahwa quasi-poisson lebih tepat daripada binomial negatif (atau sebaliknya) dan bagaimana saya bisa tahu bahwa menggunakan salah satu telah ditangani secara memadai (atau tidak) dengan kelebihan nol? Demikian pula, bagaimana cara saya mengevaluasi bahwa tidak ada lagi dispersi berlebih jika model zero-inflated digunakan? atau bagaimana saya harus memutuskan antara nol meningkat inflasi dan nol meningkat negatif?

George Michaelides
sumber

Jawaban:

9

Anda selalu dapat membandingkan model hitungan dengan melihat prediksi mereka (lebih disukai pada set tahan). J. Scott Long membahas ini secara grafis (memplot nilai-nilai prediksi terhadap aktual). Buku teksnya di sini menjelaskan secara rinci tetapi Anda juga dapat melihat 6.4 pada dokumen ini .

Anda dapat membandingkan model menggunakan AIC atau BIC dan ada juga tes yang disebut tes Voung yang saya tidak terlalu terbiasa dengan tetapi dapat membandingkan nol meningkat ke model tidak bersarang. Berikut ini adalah kertas Sas yang menjelaskan secara singkat di halaman 10 untuk membantu Anda memulai. Ini juga diterapkan dalam posting R

B_Miner
sumber
Terima kasih atas sarannya. Saya pasti akan mencoba memeriksa prediksi sebelum memutuskan model
George Michaelides
5

Beberapa hal untuk ditambahkan ke apa yang dikatakan B_Miner:

1) Anda menulis bahwa model bervariasi dari "semua yang signifikan" hingga "tidak ada yang signifikan" tetapi ini bukan cara yang baik untuk membandingkan model. Lihat, sebaliknya, pada nilai prediksi (seperti yang disarankan B_miner) dan efek ukuran.

2) Jika 70% dari data adalah 0, saya tidak dapat membayangkan bahwa model tanpa 0 inflasi sesuai.

3) Bahkan jika Anda tidak ingin menggunakan Bayesian, Anda dapat menggunakan GLMMs di SAS (PROC GLIMMIX atau NLMIXED) dan di R (berbagai paket). Mengabaikan sifat bersarang dapat mengacaukan segalanya.

4) Secara umum, memutuskan model mana yang terbaik adalah seni, bukan sains. Ada statistik untuk digunakan, tetapi mereka adalah panduan untuk penilaian. Hanya dengan melihat apa yang Anda tulis, saya akan mengatakan model ZINB terlihat benar

Peter Flom - Pasang kembali Monica
sumber
Tujuannya adalah bahwa saya pada akhirnya akan mencoba memodelkan ini menggunakan Bayesian, tetapi saya mencoba memahami bagaimana saya bisa membuat keputusan sebelum memasang model. Jika ada kemungkinan bahwa mengabaikan sifat bersarang dari data mengacaukan semuanya, mereka saya akan mencobanya GLMMs terlebih dahulu. Satu-satunya paket untuk R yang saya tahu dapat melakukan multilevel ZINB adalah glmmADMB. Apakah Anda merekomendasikan paket lain?
George Michaelides
4

Pemahaman saya adalah bahwa distribusi nol-inflasi harus digunakan ketika ada alasan untuk item tertentu untuk menghasilkan jumlah nol versus jumlah lainnya. Dengan kata lain, distribusi zero-inflated harus digunakan jika nol diproduksi oleh proses yang terpisah dari yang menghasilkan hitungan lainnya. Jika Anda tidak memiliki alasan untuk ini, mengingat overdispersi dalam sampel Anda, saya sarankan menggunakan distribusi binomial negatif karena secara akurat mewakili kelimpahan nol dan mewakili heterogenitas yang tidak teramati dengan memperkirakan parameter ini secara bebas. Seperti disebutkan di atas, buku Scott Long adalah referensi yang bagus.

Mat
sumber
Terima kasih atas jawaban anda. Memang, saya mulai berpikir tentang apakah item yang berbeda dapat menghasilkan 0s versus hitungan lain dan saya benar-benar berpikir bahwa ada beberapa variabel saya yang hanya akan menjelaskan 0s vs hitungan lainnya. Jadi mungkin saya setidaknya harus mencoba ZINB terlebih dahulu untuk melihat apakah variabel-variabel saya ini bekerja seperti yang saya harapkan mereka bekerja.
George Michaelides
3

benar-benar setuju dengan apa yang dikatakan Matt, pertama-tama Anda harus berpikir tentang latar belakang data ... Tidak masuk akal untuk mencocokkan model ZI, ketika tidak ada pemicu Zero menghasilkan dalam populasi! Keuntungan dari model NB adalah bahwa mereka dapat menampilkan heterogenitas yang tidak teramati dalam variabel acak terdistribusi gamma. Secara teknis: Alasan utama overdispersi adalah Heterogenitas dan Zero inflasi yang tidak jelas. Saya tidak percaya bahwa kecocokan Anda buruk. Namun, untuk mendapatkan kebaikan yang pas, Anda harus selalu membandingkan Penyimpangan dengan derajat kebebasan model Anda. Jika Penyimpangan D lebih tinggi dari n- (p + 1) (ini df) daripada Anda harus mencari model yang lebih baik. Meskipun sebagian besar tidak ada model yang lebih baik dari ZINB untuk menyingkirkan overdispersion.

jika Anda ingin memasukkan ZINB dengan R, dapatkan paket pscldan coba gunakan perintah zeroinfl(<model>, dist=negative). Untuk informasi lebih lanjut, lihat ?zeroinflsetelah memuat paket yang diperlukan!

MarkDollar
sumber