Pertanyaan regresi binomial negatif - apakah ini model yang buruk?

Saya membaca artikel yang sangat menarik oleh Penjual dan Shmueli tentang model regresi untuk data jumlah. Dekat awal (p. 944) mereka mengutip McCullaugh dan Nelder (1989) mengatakan bahwa regresi binomial negatif tidak populer dan memiliki hubungan kanonik yang bermasalah. Saya menemukan bagian yang dimaksud dan dikatakan (hlm. 374 dari M dan N)

"Sedikit penggunaan tampaknya telah dibuat dari distribusi binomial negatif dalam aplikasi; khususnya, penggunaan tautan kanonik bermasalah karena membuat prediktor linier fungsi dari parameter fungsi varians".

Di halaman sebelumnya mereka memberikan fungsi tautan itu sebagai

η = \log (\frac{α}{1 + α}) = \log (\frac{μ}{μ + k})

$\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right)$

dan fungsi varians

V = μ + \frac{μ^{2}}{k} .

$V = \mu + \frac{\mu^2}{k}.$

Distribusi diberikan sebagai

P r (Y = y; α, k) = \frac{(y + k - 1)!}{y! (k - 1)!} \frac{α^{y}}{(1 + α)^{y = k}}

$Pr(Y = y; \alpha,k) = \frac{(y+k-1)!}{y!(k-1)!}\frac{\alpha^y}{(1+\alpha)^{y=k}}$

Saya telah menemukan regresi NB cukup banyak digunakan (dan direkomendasikan dalam beberapa buku). Apakah semua kegunaan dan rekomendasi ini salah?

Apa konsekuensi dari tautan bermasalah ini?

regression modeling negative-binomial Peter Flom - Pasang kembali Monica
sumber

Mungkin harus melakukan setidaknya sebagian untuk kutipan yang dikaitkan dengan tahun 1989. Saya berani bertaruh bahwa sebagian besar penggunaan NB saat ini lebih baru. Model NB sangat berguna biasanya ketika Anda berurusan dengan masalah over-dispersi dalam kasus kemungkinan binomial (yaitu regresi logistik).

Saya tidak jelas pada detail (dan bahkan jauh dari menjadi pemula ketika datang ke NegBin) tetapi ingat Joseph Hilbe membahas hal ini dalam bukunya Negative Binomial Regression (2nd Edition). Dia berkomentar pada hal.9 bahwa

adalah ekspresi alami dari pandangan campuran Poisson-gamma dari NegBin. Setelah buku 1989 mereka, Nelder mengembangkan makro kk untuk GenStat, di mana ia mendukung hubungan langsung antara

dan

dengan varian

V

$V$

α

$\alpha$

μ^{2}

$\mu^2$

dan parametrisasi langsung ini telah terbukti sangat populer baru-baru ini.

V = μ + α μ^{2}

$V = \mu + \alpha \mu^2$

Reinstate Monica - G. Simpson

Saya akan mengambil komentar itu dengan sebutir garam. Re MN: Mereka memiliki definisi yang sangat ketat tentang apa itu GLM (untuk alasan yang baik saya pikir). Model negbin dengan parameter bentuk yang tidak diketahui tidak mematuhi definisi GLM yang sangat ketat oleh McCullagh, Nelder, Pregibon, dan sebagainya. Jadi secara teknis itu bukan GLM di hampir semua kasus penggunaan. Ditafsirkan sebagai kelas model yang sedikit berbeda dan diperkirakan melalui kemungkinan maksimum, tidak ada masalah lagi. Re S&S membutuhkan kasing untuk memotivasi COM Poisson, jadi kutipan M&N berguna.

Momo

Saya tidak melihat mengapa dugaan sifat buruk tautan kanonik membuat model negbin secara keseluruhan tidak diinginkan. Anda memilih fungsi tautan Anda berdasarkan data dan masalah yang Anda coba selesaikan, bukan dengan mengacu pada teori matematika. Bahkan saya ragu ada yang menggunakan tautan kanonik. Ini adalah cerita yang mirip dengan gamma GLM; tautan kanonik adalah kebalikannya, tetapi saya berani bertaruh bahwa jauh lebih banyak orang menggunakan tautan log karena kemudahan interpretasi, dan aplikasi alami untuk banyak situasi.

Hong Ooi

Sejauh yang saya tahu, hampir tidak pernah ada alasan untuk menggunakan model binomial negatif. Bahkan jika data Anda benar-benar dihasilkan oleh model binomial negatif, maka regresi Poisson menghasilkan penaksir yang konsisten tentang efek dari variabel independen terhadap respons rata-rata --- dan ini selalu selalu apa yang ingin peneliti perkirakan. Kesalahan standar yang biasa salah jika asumsi Poisson salah, tetapi bootstrap memperbaikinya. Kapan saja

, Anda dapat secara konsisten memperkirakan

menggunakan Poisson.

E {Y | X} = e x p (X β)

$E\{Y|X\}=exp(X\beta)$

β

$\beta$

Bill

Jawaban:

Saya membantah pernyataan dari beberapa sudut pandang:

i) Walaupun tautan kanonik mungkin 'bermasalah', tidak segera jelas bahwa seseorang akan tertarik pada tautan itu - sedangkan, misalnya, log-tautan di Poisson sering kali nyaman dan alami, sehingga orang sering kali tertarik pada itu. Meski begitu, dalam kasus Poisson orang memang melihat fungsi tautan lainnya.

Jadi kita tidak perlu membatasi pertimbangan kita pada tautan kanonik.

'Tautan bermasalah' tidak dengan sendirinya merupakan argumen jitu yang menentang regresi binomial negatif.

Log-link, misalnya, tampaknya menjadi pilihan yang cukup masuk akal dalam beberapa aplikasi binomial negatif, misalnya, dalam kasus-kasus di mana data Poisson bersyarat tetapi ada heterogenitas dalam tingkat Poisson - tautan log dapat hampir dapat diartikan seperti dalam kasus Poisson.

Sebagai perbandingan, saya cukup sering menggunakan Gamma GLM, tapi saya tidak ingat (selain contoh buku teks) pernah menggunakan tautan kanoniknya - saya selalu menggunakan tautan-log, karena ini adalah tautan yang lebih alami untuk digunakan untuk jenis masalah Saya cenderung bekerja dengan.

ii) "Sepertinya tidak banyak yang dibuat ... dalam aplikasi" mungkin hampir benar pada tahun 1989, tapi saya rasa itu tidak berlaku sekarang. [Bahkan jika itu berdiri sekarang, itu bukan argumen bahwa itu adalah model yang buruk, hanya saja itu tidak digunakan secara luas - yang mungkin terjadi karena segala macam alasan.]

Regresi binomial negatif telah menjadi lebih banyak digunakan karena lebih banyak tersedia, dan saya melihatnya digunakan dalam aplikasi yang jauh lebih luas sekarang. Dalam R, misalnya, saya menggunakan fungsi-fungsi MASSyang mendukungnya (dan buku yang terkait, Venables and Ripley's, Modern Applied Statistics with S , menggunakan regresi binomial negatif dalam beberapa aplikasi yang menarik) - dan saya telah menggunakan beberapa fungsi dalam beberapa paket lain bahkan sebelum saya menggunakannya di R.

Saya akan menggunakan regresi binomial negatif lebih banyak, bahkan lebih awal, jika sudah tersedia untuk saya; Saya berharap hal yang sama berlaku bagi banyak orang - jadi argumen bahwa itu sedikit digunakan tampaknya lebih merupakan peluang.

Meskipun mungkin untuk menghindari regresi binomial negatif, (katakanlah dengan menggunakan model Poisson overdispersed), atau sejumlah situasi di mana itu benar-benar tidak masalah apa yang Anda lakukan , ada berbagai alasan mengapa itu tidak sepenuhnya memuaskan.

Misalnya, ketika minat saya lebih ke interval prediksi daripada perkiraan koefisien, fakta bahwa koefisien tidak berubah mungkin bukan alasan yang memadai untuk menghindari binomial negatif.

Tentu saja masih ada pilihan lain yang memodelkan dispersi (seperti Conway-Maxwell-Poisson yang merupakan subjek makalah yang Anda sebutkan); sementara itu tentu saja pilihan, kadang-kadang ada situasi di mana saya cukup senang bahwa binomial negatif adalah 'cocok' yang cukup baik sebagai model untuk masalah saya.

Apakah semua kegunaan dan rekomendasi ini salah?

Saya benar-benar tidak berpikir begitu! Jika ya, seharusnya sudah cukup jelas sekarang. Memang, jika McCullagh dan Nelder terus merasakan hal yang sama, mereka tidak kekurangan kesempatan, atau kurangnya forum untuk mengklarifikasi masalah yang tersisa. Nelder telah meninggal (2010), tetapi McCullagh tampaknya masih ada .

Jika hanya bagian singkat di McCullagh dan Nelder yang mereka miliki, saya akan mengatakan itu argumen yang cukup lemah.

Apa konsekuensi dari tautan bermasalah ini?

Saya pikir masalah ini terutama salah satu fungsi varians dan fungsi tautan yang terkait daripada tidak terkait (seperti halnya untuk hampir semua keluarga GLM utama lainnya yang digunakan populer), yang membuat interpretasi pada skala prediktor linier kurang langsung (bukan berarti itu satu-satunya masalah; saya pikir itu masalah utama bagi seorang praktisi). Itu tidak banyak masalah.

$p$

Tak satu pun dari ini adalah untuk mengambil apa pun dari model Conway-Maxwell-Poisson (subjek kertas Penjual dan Shmueli), yang juga menjadi lebih banyak digunakan - saya tentu tidak ingin mengambil bagian dalam binomial negatif vs COM Pertandingan menembak-Poisson.

Saya hanya tidak melihatnya sebagai satu-atau-yang-lain, lebih dari (sekarang berbicara lebih luas) saya mengambil sikap Bayesian murni atau murni sering pada masalah statistik. Saya akan menggunakan apa pun yang menurut saya pilihan terbaik dalam keadaan tertentu saya, dan setiap pilihan cenderung memiliki kelebihan dan kekurangan.

Glen_b -Reinstate Monica
sumber