Makalah ini menggunakan model linier umum (distribusi kesalahan binomial dan negatif binomial) untuk menganalisis data. Tetapi kemudian di bagian analisis statistik metode, ada pernyataan ini:
... dan yang kedua dengan memodelkan data keberadaan menggunakan Model Regresi Logistik, dan data waktu pencarian makan menggunakan Generalized Linear Model (GLM). Distribusi binomial negatif dengan fungsi log link digunakan untuk memodelkan data waktu mencari makan (Welsh et al. 1996) dan kecukupan model diverifikasi dengan pemeriksaan resi (McCullagh & Nelder 1989). Tes Shapiro-Wilk atau Kolmogorov-Smirnov digunakan untuk menguji normalitas tergantung pada ukuran sampel; data ditransformasikan-log sebelum analisis untuk mematuhi normalitas.
Jika mereka mengasumsikan distribusi kesalahan binomial dan negatif binomial, maka tentunya mereka seharusnya tidak memeriksa normalitas residual?
Jawaban:
NB residual penyimpangan (atau Pearson) tidak diharapkan memiliki distribusi normal kecuali untuk model Gaussian. Untuk kasus regresi logistik, seperti @Stat mengatakan, residu penyimpangan untuk th pengamatan diberikan olehi yi
jika &yi=0
jika , di mana adalah probabilitas Bernoulli yang cocok. Karena masing-masing hanya dapat mengambil satu dari dua nilai, jelas distribusinya tidak bisa normal, bahkan untuk model yang ditentukan dengan benar:yi=1 πi^
Tetapi jika ada replikasi pengamatan untuk pola prediktor ke- , & residu penyimpangan didefinisikan untuk mengumpulkan inini i
(di mana sekarang adalah hitungan keberhasilan dari 0 hingga ) maka ketika semakin besar distribusi residu lebih mendekati normalitas:n i n iyi ni ni
Hal-hal serupa untuk Poisson atau GLM binomial negatif: untuk jumlah prediksi yang rendah distribusi residu diskrit & miring, tetapi cenderung normal untuk jumlah yang lebih besar di bawah model yang ditentukan dengan benar.
Tidak biasa, setidaknya tidak di leher saya di hutan, untuk melakukan tes formal normal residual; jika pengujian normalitas pada dasarnya tidak berguna ketika model Anda mengasumsikan normalitas yang tepat, maka fortiori itu tidak berguna ketika tidak. Namun demikian, untuk model tak jenuh, diagnostik residual grafis berguna untuk menilai keberadaan & sifat kurang fit, mengambil normalitas dengan cubitan atau segenggam garam tergantung pada jumlah ulangan per pola prediktor.
sumber
Apa yang mereka lakukan adalah benar! Saya akan memberi Anda referensi untuk memeriksa ulang. Lihat Bagian 13.4.4 dalam Pengantar Analisis Regresi Linier, Edisi ke-5oleh Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining. Khususnya, lihat contoh di halaman 460, di mana mereka cocok dengan binary glm dan periksa kembali asumsi normalitas dari "Deviance Residuals". Seperti yang disebutkan pada halaman 458, ini karena "residu penyimpangan berperilaku seperti residual biasa dalam model regresi linier normal-teori standar". Jadi masuk akal jika Anda memplotnya pada skala plot probabilitas normal dan juga nilai pas. Sekali lagi lihat halaman 456 dari referensi di atas. Dalam contoh yang mereka berikan pada halaman 460 dan 461, tidak hanya untuk kasus binomial, tetapi juga untuk Poisson glm dan Gamma dengan (tautan = log), mereka telah memeriksa normalitas residual penyimpangan.
Untuk kasus binomial residual penyimpangan didefinisikan sebagai:
Periksa di sini untuk kasing Poisson juga.
sumber