Log-linked Gamma GLM vs log-linked Gaussian GLM vs log-transformed LM

12

Dari hasil saya, tampak bahwa GLM Gamma memenuhi sebagian besar asumsi, tetapi apakah ini merupakan peningkatan yang berharga atas LM yang ditransformasikan log? Kebanyakan literatur yang saya temukan berhubungan dengan Poisson atau Binomial GLMs. Saya menemukan artikel EVALUASI ASUMSI MODEL LINEAR UMUM MENGGUNAKAN RANDOMISASI sangat berguna, tetapi tidak memiliki plot yang sebenarnya digunakan untuk membuat keputusan. Semoga seseorang yang berpengalaman bisa mengarahkan saya ke arah yang benar.

Saya ingin memodelkan distribusi variabel respons saya T, yang distribusinya diplot di bawah ini. Seperti yang Anda lihat, itu adalah skewness positif:
XHTML yang valid.

Saya memiliki dua faktor kategori untuk dipertimbangkan: METH dan CASEPART.
Perhatikan bahwa penelitian ini terutama bersifat eksplorasi, pada dasarnya berfungsi sebagai studi percontohan sebelum berteori tentang model dan melakukan DoE di sekitarnya.

Saya memiliki model berikut dalam R, dengan plot diagnostik mereka:

LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)

XHTML yang valid
XHTML yang valid

GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))

XHTML yang valid
XHTML yang valid

GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))

XHTML yang valid
XHTML yang valid

Saya juga mendapatkan nilai-P berikut melalui uji Shapiro-Wilks pada residual:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288  

Saya menghitung nilai AIC dan BIC, tetapi jika saya benar, mereka tidak memberi tahu saya banyak karena keluarga yang berbeda di GLMs / LM.

Juga, saya mencatat nilai-nilai ekstrem, tetapi saya tidak dapat mengklasifikasikannya sebagai outlier karena tidak ada "penyebab khusus" yang jelas.

TLJ
sumber
1
Perlu dicatat bahwa ketiga model ini adalah multiplikatif dalam arti bahwa peningkatan dalam suatu regressor dikaitkan dengan perubahan relatif dalam respons tipikal. Untuk dua log-linear GLM, "tipikal" berarti rata-rata aritmatika, sedangkan untuk LM yang ditransformasikan log kita berbicara tentang cara geometrik. Dengan demikian, cara Anda ingin menafsirkan efek dan prediksi juga merupakan faktor pendorong untuk pilihan model, tidak hanya memiliki plot residu yang sempurna (ini adalah data yang digerakkan pula).
Michael M
@MichaelMayer - Terima kasih atas tanggapannya, sangat membantu. Bisakah Anda mengembangkan sedikit tentang bagaimana pilihan itu memengaruhi penafsiran? Atau tunjukkan saya ke arah referensi?
TLJ
@ Marcinthebox- Saya telah melihat pertanyaan itu sebelum memposting. Tidak persis menjawab pertanyaan saya dengan sangat singkat.
TLJ

Jawaban:

18

Yah, cukup jelas bahwa kecocokan log-linear dengan Gaussian tidak cocok; ada heteroskedastisitas yang kuat dalam residu. Jadi mari kita pertimbangkan itu.

Yang tersisa adalah lognormal vs gamma.

T

Masing-masing model tampak sama-sama cocok dalam kasus ini. Keduanya memiliki varians yang sebanding dengan kuadrat rata-rata, sehingga pola penyebaran residu terhadap fit serupa.

Pencilan rendah akan cocok sedikit lebih baik dengan gamma daripada lognormal (sebaliknya untuk pencilan tinggi). Pada mean dan varians yang diberikan, lognormal lebih condong dan memiliki koefisien variasi yang lebih tinggi.

exp(μ)σ2

Lihat juga di sini dan di sini untuk beberapa diskusi terkait.

Glen_b -Reinstate Monica
sumber
1
@Gleb_b jawaban ini sangat berguna untuk analisis saya. Saya punya beberapa pertanyaan. (1) Pertama, apakah ini 'Mereka berdua memiliki varians yang proporsional dengan kuadrat rata-rata ...' berdasarkan plot sisa vs pas? (2) Dan apakah ini 'Pencilan rendah akan cocok sedikit lebih baik dengan gamma ... Pada mean dan varian yang berbeda, ...' berdasarkan plot qq? (3) Dari apa yang saya mengerti glm (misalnya gamma, poisson dan binomial negatif) tidak memiliki asumsi normalitas residual dan homogenitas varian. Jika demikian, mengapa plot residu vs pas dan plot qq normal relevan untuk diagnosa?
tatami
2
Ini cukup luas untuk menjadi pertanyaan yang sama sekali baru, atau memang beberapa (sebagian besar sudah dijawab di situs kami!) - 1. bagian dari model. 2. Tidak, ini adalah fakta umum tentang distribusi. 3. Benar mereka tidak normal, namun residu yang digunakan dalam plot QQ adalah residual penyimpangan (yang secara internal siswa) yang - terutama dalam kasus gamma - umumnya akan cenderung sangat dekat dengan distribusi normal (saya menulis jawaban yang menjelaskan mengapa di beberapa titik) dan seharusnya memiliki varian dasarnya konstan. Beberapa penyimpangan dari normalitas tidak terduga tetapi penyimpangan substansial ...
ctd
2
ctd ... dari normalitas (dengan asumsi plot lain baik-baik saja) dapat menunjukkan masalah dengan asumsi distribusi.
Glen_b -Reinstate Monica