Saya membaca artikel yang sangat menarik oleh Penjual dan Shmueli tentang model regresi untuk data jumlah. Dekat awal (p. 944) mereka mengutip McCullaugh dan Nelder (1989) mengatakan bahwa regresi binomial negatif tidak populer dan memiliki hubungan kanonik yang bermasalah. Saya menemukan bagian yang dimaksud dan dikatakan (hlm. 374 dari M dan N)
"Sedikit penggunaan tampaknya telah dibuat dari distribusi binomial negatif dalam aplikasi; khususnya, penggunaan tautan kanonik bermasalah karena membuat prediktor linier fungsi dari parameter fungsi varians".
Di halaman sebelumnya mereka memberikan fungsi tautan itu sebagai
dan fungsi varians
Distribusi diberikan sebagai
Saya telah menemukan regresi NB cukup banyak digunakan (dan direkomendasikan dalam beberapa buku). Apakah semua kegunaan dan rekomendasi ini salah?
Apa konsekuensi dari tautan bermasalah ini?
sumber
Jawaban:
Saya membantah pernyataan dari beberapa sudut pandang:
i) Walaupun tautan kanonik mungkin 'bermasalah', tidak segera jelas bahwa seseorang akan tertarik pada tautan itu - sedangkan, misalnya, log-tautan di Poisson sering kali nyaman dan alami, sehingga orang sering kali tertarik pada itu. Meski begitu, dalam kasus Poisson orang memang melihat fungsi tautan lainnya.
Jadi kita tidak perlu membatasi pertimbangan kita pada tautan kanonik.
'Tautan bermasalah' tidak dengan sendirinya merupakan argumen jitu yang menentang regresi binomial negatif.
Log-link, misalnya, tampaknya menjadi pilihan yang cukup masuk akal dalam beberapa aplikasi binomial negatif, misalnya, dalam kasus-kasus di mana data Poisson bersyarat tetapi ada heterogenitas dalam tingkat Poisson - tautan log dapat hampir dapat diartikan seperti dalam kasus Poisson.
Sebagai perbandingan, saya cukup sering menggunakan Gamma GLM, tapi saya tidak ingat (selain contoh buku teks) pernah menggunakan tautan kanoniknya - saya selalu menggunakan tautan-log, karena ini adalah tautan yang lebih alami untuk digunakan untuk jenis masalah Saya cenderung bekerja dengan.
ii) "Sepertinya tidak banyak yang dibuat ... dalam aplikasi" mungkin hampir benar pada tahun 1989, tapi saya rasa itu tidak berlaku sekarang. [Bahkan jika itu berdiri sekarang, itu bukan argumen bahwa itu adalah model yang buruk, hanya saja itu tidak digunakan secara luas - yang mungkin terjadi karena segala macam alasan.]
Regresi binomial negatif telah menjadi lebih banyak digunakan karena lebih banyak tersedia, dan saya melihatnya digunakan dalam aplikasi yang jauh lebih luas sekarang. Dalam R, misalnya, saya menggunakan fungsi-fungsi
MASS
yang mendukungnya (dan buku yang terkait, Venables and Ripley's, Modern Applied Statistics with S , menggunakan regresi binomial negatif dalam beberapa aplikasi yang menarik) - dan saya telah menggunakan beberapa fungsi dalam beberapa paket lain bahkan sebelum saya menggunakannya di R.Saya akan menggunakan regresi binomial negatif lebih banyak, bahkan lebih awal, jika sudah tersedia untuk saya; Saya berharap hal yang sama berlaku bagi banyak orang - jadi argumen bahwa itu sedikit digunakan tampaknya lebih merupakan peluang.
Meskipun mungkin untuk menghindari regresi binomial negatif, (katakanlah dengan menggunakan model Poisson overdispersed), atau sejumlah situasi di mana itu benar-benar tidak masalah apa yang Anda lakukan , ada berbagai alasan mengapa itu tidak sepenuhnya memuaskan.
Misalnya, ketika minat saya lebih ke interval prediksi daripada perkiraan koefisien, fakta bahwa koefisien tidak berubah mungkin bukan alasan yang memadai untuk menghindari binomial negatif.
Tentu saja masih ada pilihan lain yang memodelkan dispersi (seperti Conway-Maxwell-Poisson yang merupakan subjek makalah yang Anda sebutkan); sementara itu tentu saja pilihan, kadang-kadang ada situasi di mana saya cukup senang bahwa binomial negatif adalah 'cocok' yang cukup baik sebagai model untuk masalah saya.
Saya benar-benar tidak berpikir begitu! Jika ya, seharusnya sudah cukup jelas sekarang. Memang, jika McCullagh dan Nelder terus merasakan hal yang sama, mereka tidak kekurangan kesempatan, atau kurangnya forum untuk mengklarifikasi masalah yang tersisa. Nelder telah meninggal (2010), tetapi McCullagh tampaknya masih ada .
Jika hanya bagian singkat di McCullagh dan Nelder yang mereka miliki, saya akan mengatakan itu argumen yang cukup lemah.
Saya pikir masalah ini terutama salah satu fungsi varians dan fungsi tautan yang terkait daripada tidak terkait (seperti halnya untuk hampir semua keluarga GLM utama lainnya yang digunakan populer), yang membuat interpretasi pada skala prediktor linier kurang langsung (bukan berarti itu satu-satunya masalah; saya pikir itu masalah utama bagi seorang praktisi). Itu tidak banyak masalah.
Tak satu pun dari ini adalah untuk mengambil apa pun dari model Conway-Maxwell-Poisson (subjek kertas Penjual dan Shmueli), yang juga menjadi lebih banyak digunakan - saya tentu tidak ingin mengambil bagian dalam binomial negatif vs COM Pertandingan menembak-Poisson.
Saya hanya tidak melihatnya sebagai satu-atau-yang-lain, lebih dari (sekarang berbicara lebih luas) saya mengambil sikap Bayesian murni atau murni sering pada masalah statistik. Saya akan menggunakan apa pun yang menurut saya pilihan terbaik dalam keadaan tertentu saya, dan setiap pilihan cenderung memiliki kelebihan dan kekurangan.
sumber