Saya bekerja dengan kumpulan data besar (rahasia, jadi saya tidak bisa berbagi terlalu banyak),
Dimungkinkan untuk membuat set data kecil yang memiliki beberapa karakteristik umum dari data nyata tanpa nama variabel atau nilai aktual apa pun.
dan sampai pada kesimpulan diperlukan regresi binomial negatif. Saya belum pernah melakukan regresi glm sebelumnya, dan saya tidak dapat menemukan informasi yang jelas tentang apa asumsi itu. Apakah mereka sama untuk MLR?
Jelas tidak! Anda sudah tahu bahwa Anda menganggap respons binomial kondisional negatif, tidak kondisional normal. ( Beberapa asumsi dibagikan. Independensi misalnya.)
Biarkan saya berbicara tentang GLM secara umum terlebih dahulu.
GLM mencakup beberapa regresi tetapi digeneralisasi dalam beberapa cara:
1) distribusi kondisional dari respons (variabel dependen) berasal dari keluarga eksponensial , yang mencakup Poisson, binomial, gamma, normal, dan berbagai distribusi lainnya.
2) respons rata-rata terkait dengan prediktor (variabel independen) melalui fungsi tautan . Setiap keluarga distribusi memiliki fungsi tautan kanonik yang terkait - misalnya dalam kasus Poisson, tautan kanonik adalah log . Tautan kanonik hampir selalu merupakan default, tetapi pada sebagian besar perangkat lunak Anda biasanya memiliki beberapa pilihan dalam setiap pilihan distribusi. Untuk binomial, tautan kanonik adalah logit (prediktor linier adalah pemodelan , peluang log keberhasilan, atau "1") dan untuk Gamma kanonik tautan adalah kebalikan - tetapi dalam kedua kasus fungsi tautan lain sering digunakan.log( hal1 - hal)
Jadi jika respons Anda adalah dan prediktor Anda adalah dan , dengan regresi Poisson dengan tautan log Anda mungkin memiliki untuk deskripsi Anda tentang bagaimana rata-rata terkait dengan :X 1 X 2 Y XYX1X2YX
E ( Ysaya) = μsaya
η log glogμsaya= ηsaya ( disebut 'prediktor linier', dan di sini fungsi tautannya adalah , simbol sering digunakan untuk mewakili fungsi tautan)ηlogg
ηsaya= β0+ β1x1 i+ β2x2 i
3) varians dari respon tidak konstan, tetapi beroperasi melalui fungsi varians (fungsi dari rata-rata, mungkin kali parameter penskalaan). Sebagai contoh, varians dari Poisson sama dengan rata-rata, sedangkan untuk gamma itu sebanding dengan kuadrat rata-rata. (Kuasi-distribusi memungkinkan beberapa derajat decoupling fungsi Variance dari distribusi yang diasumsikan)
-
Jadi, asumsi apa yang sama dengan apa yang Anda ingat dari MLR?
Kemerdekaan masih ada di sana.
Homoskedastisitas tidak lagi dianggap; varians secara eksplisit merupakan fungsi dari rata-rata dan secara umum bervariasi dengan prediktor (jadi sementara model umumnya heteroskedastik, heteroskedastisitas mengambil bentuk tertentu).
Linearitas: Model ini masih linear dalam parameter (yaitu prediktor linier adalah ), tetapi respons yang diharapkan tidak terkait secara linear dengan mereka (kecuali jika Anda menggunakan fungsi tautan identitas!).Xβ
Distribusi tanggapan secara substansial lebih umum
Interpretasi output dalam banyak hal sangat mirip; Anda masih dapat melihat koefisien yang diperkirakan dibagi dengan kesalahan standar mereka misalnya, dan menafsirkannya dengan cara yang sama (mereka asymptotically normal - sebuah tes-z Wald - tetapi orang-orang tampaknya masih memanggil mereka t-rasio, bahkan ketika tidak ada teori yang membuat mereka -distribusi secara umum).t
Perbandingan antara model bersarang (melalui setup seperti 'tabel anova') agak sedikit berbeda, tetapi serupa (melibatkan uji chi-square asimptotik). Jika Anda merasa nyaman dengan AIC dan BIC, ini dapat dihitung.
Jenis tampilan diagnostik yang serupa umumnya digunakan, tetapi bisa lebih sulit untuk ditafsirkan.
Banyak intuisi regresi linier berganda Anda akan terbawa jika Anda mengingat perbedaannya.
Berikut adalah contoh dari sesuatu yang dapat Anda lakukan dengan glm yang tidak dapat Anda lakukan dengan regresi linier (memang, kebanyakan orang akan menggunakan regresi nonlinear untuk ini, tetapi GLM lebih mudah dan lebih baik untuk itu) dalam kasus normal - adalah normal , dimodelkan sebagai fungsi :xYx
E ( Y) = exp( η) = exp( Xβ) = exp( β0+ β1x ) (yaitu, tautan log)
Var ( Y) = σ2
Yaitu, kuadrat-terkecil dari hubungan eksponensial antara dan .Yx
Dapatkah saya mengubah variabel dengan cara yang sama (Saya sudah menemukan mengubah variabel dependen adalah panggilan yang buruk karena perlu nomor alami)?
Anda (biasanya) tidak ingin mengubah respons (DV). Anda kadang - kadang mungkin ingin mengubah prediktor (IV) untuk mencapai linearitas dari prediktor linier.
Saya sudah menentukan bahwa distribusi binomial negatif akan membantu dengan dispersi berlebih dalam data saya (varians sekitar 2000, rata-rata adalah 48).
Ya, itu bisa mengatasi penyebaran berlebihan. Tapi mengurus untuk tidak membingungkan bersyarat dispersi dengan tanpa syarat dispersi.
Pendekatan umum lainnya - jika sedikit lebih kludgy dan agak kurang memuaskan bagi saya - adalah quasi-Poisson regression (overdispersed Poisson regression).
Dengan binomial negatif, ia berada dalam keluarga eksponensial jika Anda menentukan salah satu parameter tertentu (cara itu biasanya dikalibrasi ulang untuk GLMS setidaknya). Beberapa paket akan cocok jika Anda menentukan parameter, yang lain akan membungkus estimasi ML dari parameter itu (katakan melalui kemungkinan profil) di sekitar rutin GLM, mengotomatiskan proses. Beberapa akan membatasi Anda untuk satu set distribusi yang lebih kecil; Anda tidak mengatakan perangkat lunak apa yang mungkin Anda gunakan sehingga sulit untuk mengatakan lebih banyak di sana.
Saya pikir biasanya log-link cenderung digunakan dengan regresi binomial negatif.
Ada sejumlah dokumen tingkat pengantar (mudah ditemukan melalui google) yang mengarah melalui beberapa dasar GLM Poisson dan kemudian analisis data GLM binomial negatif, tetapi Anda mungkin lebih suka melihat buku tentang GLM dan mungkin melakukan sedikit regresi Poisson terlebih dahulu hanya untuk terbiasa dengan itu.
Beberapa referensi yang saya temukan sangat membantu dalam menganalisis data dengan distribusi binomial negatif secara khusus (termasuk asumsi daftar) dan GLM / GLMM umumnya adalah:
Bates, DM, B. Machler, B. Bolker, dan S. Walker. 2015. Memasukkan model efek campuran linier menggunakan lme4. J. Stat. Perangkat Lunak 67: 1-48.
Bolker, BM, Brooks ME, CJ Clark, SW Geange, JR Poulsen, MHH Stevens, dan J. White. Model campuran linier umum: panduan praktis untuk ekologi dan evolusi. Tren Ekologi dan Evolusi 127-135.
Zeileis A., C. Keleiber C, dan S. Jackman 2008. Model regresi untuk data hitungan dalam RJ Stat. Perangkat lunak. 27: 1-25
Zuur AF, EN Iene, N. Walker, AA Saveliev, dan GM Smith. 2009. Model efek campuran dan ekstensi dalam ekologi dengan R. Springer, NY, USA.
sumber