Apa strategi yang tepat untuk memutuskan model mana yang akan digunakan dengan data jumlah? Saya telah menghitung data yang saya perlu model sebagai model bertingkat dan direkomendasikan kepada saya (di situs ini) bahwa cara terbaik untuk melakukannya adalah melalui bug atau MCMCglmm. Namun saya masih mencoba untuk belajar tentang statistik bayesian, dan saya pikir saya pertama-tama harus mencoba mencocokkan data saya sebagai model linier umum dan mengabaikan struktur data yang bersarang (supaya saya bisa mendapatkan ide yang kabur tentang apa yang diharapkan).
Sekitar 70% dari data adalah 0 dan rasio varians terhadap rata-rata adalah 33. Jadi data cukup tersebar.
Setelah mencoba sejumlah opsi yang berbeda (termasuk poisson, binomial negatif, kuasi dan model nol inflasi) saya melihat sangat sedikit konsistensi dalam hasil (bervariasi dari semuanya signifikan hingga tidak ada yang signifikan).
Bagaimana saya bisa membuat keputusan tentang jenis model yang akan dipilih berdasarkan inflasi 0 dan dispersi berlebihan? Misalnya, bagaimana saya dapat menyimpulkan bahwa quasi-poisson lebih tepat daripada binomial negatif (atau sebaliknya) dan bagaimana saya bisa tahu bahwa menggunakan salah satu telah ditangani secara memadai (atau tidak) dengan kelebihan nol? Demikian pula, bagaimana cara saya mengevaluasi bahwa tidak ada lagi dispersi berlebih jika model zero-inflated digunakan? atau bagaimana saya harus memutuskan antara nol meningkat inflasi dan nol meningkat negatif?
sumber
Beberapa hal untuk ditambahkan ke apa yang dikatakan B_Miner:
1) Anda menulis bahwa model bervariasi dari "semua yang signifikan" hingga "tidak ada yang signifikan" tetapi ini bukan cara yang baik untuk membandingkan model. Lihat, sebaliknya, pada nilai prediksi (seperti yang disarankan B_miner) dan efek ukuran.
2) Jika 70% dari data adalah 0, saya tidak dapat membayangkan bahwa model tanpa 0 inflasi sesuai.
3) Bahkan jika Anda tidak ingin menggunakan Bayesian, Anda dapat menggunakan GLMMs di SAS (PROC GLIMMIX atau NLMIXED) dan di R (berbagai paket). Mengabaikan sifat bersarang dapat mengacaukan segalanya.
4) Secara umum, memutuskan model mana yang terbaik adalah seni, bukan sains. Ada statistik untuk digunakan, tetapi mereka adalah panduan untuk penilaian. Hanya dengan melihat apa yang Anda tulis, saya akan mengatakan model ZINB terlihat benar
sumber
Pemahaman saya adalah bahwa distribusi nol-inflasi harus digunakan ketika ada alasan untuk item tertentu untuk menghasilkan jumlah nol versus jumlah lainnya. Dengan kata lain, distribusi zero-inflated harus digunakan jika nol diproduksi oleh proses yang terpisah dari yang menghasilkan hitungan lainnya. Jika Anda tidak memiliki alasan untuk ini, mengingat overdispersi dalam sampel Anda, saya sarankan menggunakan distribusi binomial negatif karena secara akurat mewakili kelimpahan nol dan mewakili heterogenitas yang tidak teramati dengan memperkirakan parameter ini secara bebas. Seperti disebutkan di atas, buku Scott Long adalah referensi yang bagus.
sumber
benar-benar setuju dengan apa yang dikatakan Matt, pertama-tama Anda harus berpikir tentang latar belakang data ... Tidak masuk akal untuk mencocokkan model ZI, ketika tidak ada pemicu Zero menghasilkan dalam populasi! Keuntungan dari model NB adalah bahwa mereka dapat menampilkan heterogenitas yang tidak teramati dalam variabel acak terdistribusi gamma. Secara teknis: Alasan utama overdispersi adalah Heterogenitas dan Zero inflasi yang tidak jelas. Saya tidak percaya bahwa kecocokan Anda buruk. Namun, untuk mendapatkan kebaikan yang pas, Anda harus selalu membandingkan Penyimpangan dengan derajat kebebasan model Anda. Jika Penyimpangan D lebih tinggi dari n- (p + 1) (ini df) daripada Anda harus mencari model yang lebih baik. Meskipun sebagian besar tidak ada model yang lebih baik dari ZINB untuk menyingkirkan overdispersion.
jika Anda ingin memasukkan ZINB dengan R, dapatkan paket
pscl
dan coba gunakan perintahzeroinfl(<model>, dist=negative)
. Untuk informasi lebih lanjut, lihat?zeroinfl
setelah memuat paket yang diperlukan!sumber