Pemodelan parametrik varians dari jumlah data

12

Saya ingin memodelkan beberapa data, tetapi saya tidak yakin jenis model apa yang dapat saya gunakan. Saya memiliki data hitungan, dan saya menginginkan model yang akan memberikan estimasi parametrik baik dari mean maupun varians dari data. Artinya, saya memiliki berbagai faktor prediktif dan saya ingin menentukan apakah ada di antara mereka yang memengaruhi varians (bukan hanya rerata kelompok).

Saya tahu bahwa regresi Poisson tidak akan berhasil karena variansnya sama dengan rata-rata; asumsi ini tidak berlaku dalam kasus saya, jadi saya tahu ada overdispersi. Namun, model binomial negatif hanya menghasilkan parameter overdispersi tunggal, bukan yang merupakan fungsi dari prediktor dalam model. Model apa yang bisa melakukan ini?

Selain itu, referensi ke buku atau kertas yang membahas model dan / atau paket R yang mengimplementasikan model akan dihargai.

Brian Diggs
sumber
1
Bagaimana Anda tahu ada overdispersi tanpa terlebih dahulu melakukan regresi Poisson? Lagi pula, membandingkan varian nilai-nilai mentah (respons) dengan nilai rata-rata tidak relevan: yang penting adalah kebaikan kesesuaian model Poisson (ini adalah analog mengevaluasi distribusi residu dalam model linier dibandingkan dengan mengevaluasi distribusi variabel respons). Cara lain untuk menempatkan ini adalah bahwa hubungan antara variabel independen dan respons dapat menciptakan penampilan overdispersi bahkan dalam model Poisson yang akurat dan indah.
whuber
2
@whuber Itu poin yang adil. Untuk prediktor kategori tunggal yang melihat varians dan rata-rata dari sub-kelompok akan cukup untuk mendeteksi penyebaran berlebihan, tetapi untuk regresi Poisson multivariat, tidak. Demi argumen, mari kita asumsikan baik Poisson dan regresi binomal negatif telah dilakukan dan binomial negatif menunjukkan kecocokan yang lebih baik melalui perbandingan model anova. Itu harus menunjukkan penyebaran berlebihan. Mengingat hal itu, bagaimana varians / penyebaran berlebihan dapat dimodelkan secara parametrik dan bukan sebagai konstanta?
Brian Diggs
1
Saya pikir ada bab dalam McCullagh dan Nelder, Generalized linear models, edisi ke-2 , yang membahas hal ini (tetapi salinan saya sedang bekerja) ... tidak akan ada kemungkinan nyata, tetapi Anda dapat menggunakan kemungkinan semu, dan agar mungkin judul bab ini. Anda menerapkan kuadrat terkecil berulang berulang meskipun tidak ada model probabilitas yang sesuai.
Karl
Bab 10 dari McCullagh dan Nelder membahas Joint Modeling of Mean dan Dispersion, yaitu parameterisasi baik mean dan varians. Kemungkinan quasi yang diperluas adalah alat utama, tetapi dalam beberapa situasi mungkin ada kekhawatiran tentang metode itu
tamu

Jawaban:

9

Anda bisa memodelkan parameter dispersi binomial negatif itu sendiri sebagai fungsi dari variabel dan parameter menggunakan paket gamls di R. Saya memberikan kutipan dari pengantar untuk itu:

Mengapa saya harus menggunakan GAMLSS

Jika variabel respons Anda adalah data jumlah (diskrit), sangat mungkin distribusi Poisson tidak akan cocok. GAMLSS menyediakan berbagai distribusi diskrit (termasuk binomial negatif) yang dapat Anda coba. Parameter dispersi dapat juga dimodelkan sebagai fungsi dari variabel penjelas.

Situs web www.gamlss.org memiliki dokumentasi dan tautan ke beberapa makalah tentang pendekatan yang digunakan dalam paket.

Jbowman
sumber
Kedua balasan itu membantu dan memberikan referensi yang bagus. Saya memberikan hadiah untuk yang satu ini karena (a) ia mendahului yang lain empat menit dan (b) solusi gamlss baru bagi saya (saya kenal dengan nbreg). Tapi topi ke @timbp karena memberikan balasan yang baik; Saya harap Anda akan terus berkontribusi ke situs kami.
whuber
2
@whuber, saya juga tidak bisa menerima jawaban "the" karena keduanya sangat membantu. Saya memilih yang ini karena menyertakan referensi paket R yang bisa saya gunakan; referensi buku di jawaban yang lain adalah bacaan yang bagus dan tidak boleh diabaikan. Terima kasih telah menawarkan hadiah yang mendorong dua jawaban bagus ini.
Brian Diggs
9

Stata menyediakan perintah -gnbreg-, yang memungkinkan Anda untuk memodelkan parameter dispersi. Anda dapat melihat bantuan Stata untuk perintah di http://www.stata.com/help.cgi?nbreg

Stata menyebutnya model binomial negatif umum. Joseph Hilbe membahasnya dalam bukunya "Regresi Binomial Negatif", bagian 10.4, sebagai "NB-H: Regresi binomial negatif heterogen".

timbp
sumber