Dari hasil saya, tampak bahwa GLM Gamma memenuhi sebagian besar asumsi, tetapi apakah ini merupakan peningkatan yang berharga atas LM yang ditransformasikan log? Kebanyakan literatur yang saya temukan berhubungan dengan Poisson atau Binomial GLMs. Saya menemukan artikel EVALUASI ASUMSI MODEL LINEAR UMUM MENGGUNAKAN RANDOMISASI sangat berguna, tetapi tidak memiliki plot yang sebenarnya digunakan untuk membuat keputusan. Semoga seseorang yang berpengalaman bisa mengarahkan saya ke arah yang benar.
Saya ingin memodelkan distribusi variabel respons saya T, yang distribusinya diplot di bawah ini. Seperti yang Anda lihat, itu adalah skewness positif:
.
Saya memiliki dua faktor kategori untuk dipertimbangkan: METH dan CASEPART.
Perhatikan bahwa penelitian ini terutama bersifat eksplorasi, pada dasarnya berfungsi sebagai studi percontohan sebelum berteori tentang model dan melakukan DoE di sekitarnya.
Saya memiliki model berikut dalam R, dengan plot diagnostik mereka:
LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)
GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))
GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))
Saya juga mendapatkan nilai-P berikut melalui uji Shapiro-Wilks pada residual:
LM.LOG: 2.347e-11
GLM.GAMMA: 0.6288
GLM.GAUS: 0.6288
Saya menghitung nilai AIC dan BIC, tetapi jika saya benar, mereka tidak memberi tahu saya banyak karena keluarga yang berbeda di GLMs / LM.
Juga, saya mencatat nilai-nilai ekstrem, tetapi saya tidak dapat mengklasifikasikannya sebagai outlier karena tidak ada "penyebab khusus" yang jelas.
Jawaban:
Yah, cukup jelas bahwa kecocokan log-linear dengan Gaussian tidak cocok; ada heteroskedastisitas yang kuat dalam residu. Jadi mari kita pertimbangkan itu.
Yang tersisa adalah lognormal vs gamma.
Masing-masing model tampak sama-sama cocok dalam kasus ini. Keduanya memiliki varians yang sebanding dengan kuadrat rata-rata, sehingga pola penyebaran residu terhadap fit serupa.
Pencilan rendah akan cocok sedikit lebih baik dengan gamma daripada lognormal (sebaliknya untuk pencilan tinggi). Pada mean dan varians yang diberikan, lognormal lebih condong dan memiliki koefisien variasi yang lebih tinggi.
Lihat juga di sini dan di sini untuk beberapa diskusi terkait.
sumber