Cara menginterpretasikan parameter dalam GLM dengan family = Gamma

21

Saya punya pertanyaan tentang interpretasi parameter untuk GLM dengan variabel dependen terdistribusi gamma. Inilah yang dikembalikan R untuk GLM saya dengan tautan-log:

Call:
glm(formula = income ~ height + age + educat + married + sex + language + highschool, 
    family = Gamma(link = log), data = fakesoep)

Deviance Residuals: 
       Min        1Q    Median        3Q       Max  
  -1.47399  -0.31490  -0.05961   0.18374   1.94176  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.2202325  0.2182771  28.497  < 2e-16 ***
height       0.0082530  0.0011930   6.918 5.58e-12 ***
age          0.0001786  0.0009345   0.191    0.848    
educat       0.0119425  0.0009816  12.166  < 2e-16 ***
married     -0.0178813  0.0173453  -1.031    0.303    
sex         -0.3179608  0.0216168 -14.709  < 2e-16 ***
language     0.0050755  0.0279452   0.182    0.856    
highschool   0.3466434  0.0167621  20.680  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Gamma family taken to be 0.1747557)

Null deviance: 757.46  on 2999  degrees of freedom
Residual deviance: 502.50  on 2992  degrees of freedom
AIC: 49184

Bagaimana cara menginterpretasikan parameter? Jika saya menghitung exp(coef())model saya, saya mendapatkan ~ 500 untuk intersep. Sekarang saya percaya itu tidak berarti pendapatan yang diharapkan jika semua variabel lain tetap konstan, bukan? Karena rata-rata atau mean(age)terletak pada ~ 2000. Saya juga tidak memiliki petunjuk bagaimana menafsirkan arah dan nilai koefisien kovariat.

gung - Reinstate Monica
sumber
6
500 akan mendekati pendapatan yang diharapkan jika semua variabel lain benar-benar nol (tidak hanya konstan) --- sama seperti dalam regresi, sungguh.
Glen_b -Reinstate Monica
@ Glen_b mengapa pendapatan diharapkan ketika eksponensial koefisien adalah efek multiplikatif terhadap pendapatan ketika ada perubahan dalam variabel penjelas?
tatami
Kasus yang dibahas adalah rata-rata bersyarat ketika semua variabel penjelas adalah 0.
Glen_b -Reinstate Monica

Jawaban:

25

Spesifikasi GLM log-linked log identik dengan regresi eksponensial:

E[y|x,z]=exp(α+βx+γz)=y^

E[y|x=0,z=0]=exp(α)

yxx

E[y|x,z]x=exp(α+βx+γz)β=y^β

Kuantitas ini tergantung pada dan , jadi Anda bisa mengevaluasi ini pada nilai rata-rata / median / modal atau representatif dari dan , atau mengambil rata-rata dari sampel Anda. Keduanya disebut efek marginal. Derivatif ini hanya masuk akal untuk variabel kontinu (seperti tinggi) dan memberi tahu Anda efek aditif dari perubahan kecil dalam pada .xzxzy^βxy

Jika adalah biner (seperti seks), Anda dapat mempertimbangkan untuk menghitung perbedaan hingga sebagai gantinya: x

E[y|z,x=1]-E[y|z,x=0]=exp(α+β+γz)-exp(α+γz)=exp(α+γz)(exp(β)-1)

Ini lebih masuk akal karena sulit membayangkan perubahan kecil dalam seks. Tentu saja, Anda juga dapat melakukan ini dengan variabel kontinu. Ini adalah efek aditif dari perubahan satu unit dalam , bukan yang kecil.x

Metode ketiga adalah mengekspansi koefisien. Perhatikan bahwa:

E[y|z,x+1]=exp(α+β(x+1)+γz)=exp(α+βx+β+γz)=exp(α+βx+γz)exp(β)=E[y|z,x]exp(β)

Ini berarti Anda dapat menginterpretasikan koefisien eksponensial secara multiplikatif daripada secara positif. Mereka memberi Anda pengganda pada nilai yang diharapkan ketika berubah sebesar 1.x

Dimitriy V. Masterov
sumber
1
Apakah Anda dapat menggambarkan interpretasi kedua?
tatami
@tatami saya memperbaiki kesalahan dalam kasus biner. Apakah lebih masuk akal sekarang?
Dimitriy V. Masterov
2

Pertama saya akan melihat residu untuk melihat seberapa cocok model. Jika tidak apa-apa, saya akan mencoba menggunakan fungsi tautan lain kecuali saya punya alasan untuk percaya itu benar-benar berasal dari distribusi gamma. Jika gamma masih terlihat meyakinkan, saya akan menyimpulkan bahwa istilah yang signifikan secara statistik adalah intersep, tinggi, pendidikan, jenis kelamin, dan sekolah menengah (yang ditandai dengan tiga bintang). Di antara mereka sendiri tidak ada yang bisa mengatakan lebih kecuali mereka distandarisasi (memiliki rentang yang sama).

Tanggapan terhadap komentar: Saya memahami pertanyaan Anda dengan lebih baik sekarang. Anda benar-benar dapat melakukannya! Peningkatan satuan dalam ketinggian menyebabkan exp (0,0082530) -1 ~ = 0,0082530 (menggunakan exp x = 1 + x perkiraan untuk x kecil) perubahan relatif dalam pendapatan. Sangat mudah diinterpretasikan, bukan?

Emre
sumber
1
Jadi saya tidak bisa benar-benar menginterpretasikan parameter, misalnya pendapatan meningkat xy jika tingginya meningkat satu?
1
Saya percaya sekarang bahwa saya harus menafsirkannya secara multiplikatif: exp (Intercept) * exp (tinggi) akan menjadi pendapatan dengan kenaikan tinggi 1 unit. Meskipun begitu, terima kasih! :)