Parameter dispersi dalam output GLM

11

Saya telah menjalankan glm di R, dan di dekat bagian bawah summary()output, ia menyatakan

(Dispersion parameter for gaussian family taken to be 28.35031)

Saya telah melakukan beberapa pencarian di Google dan mengetahui bahwa parameter dispersi digunakan agar sesuai dengan kesalahan standar. Saya berharap seseorang dapat memberikan rincian lebih lanjut tentang apa parameter dispersi itu dan bagaimana seharusnya ditafsirkan?

luciano
sumber

Jawaban:

9

Salah satu cara untuk menjelajahi ini adalah dengan mencoba memasang model yang sama menggunakan alat yang berbeda, berikut adalah satu contoh:

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

Jadi Anda dapat melihat bahwa kesalahan standar residual dari model linier hanyalah akar kuadrat dari dispersi dari glm, dengan kata lain dispersi (untuk model Gaussian) sama dengan kesalahan kuadrat rata-rata.

Greg Snow
sumber
4

Y1,Y2,,YnR

Jika Anda menggunakan distribusi normal untuk memodelkan data Anda, Anda mungkin akan menulisnya

YiN(μ,σ2)

μσ

Tetapi katakanlah data Anda adalah data hitungan dan dengan demikian tidak terdistribusi secara normal. Bahkan kasus ini tidak berkelanjutan, jadi Anda dapat menggunakan distribusi Poisson sebagai gantinya:

YiPoisson(λ)

λE[Yi]=λVar[Yi]=λ

Jadi orang menambahkan parameter dispersi untuk mendapatkan derajat kebebasan tambahan dalam pemodelan mean dan varians secara bersamaan. Saya kira setiap buku teks di GLM akan memberi Anda penjelasan yang lebih rinci dan matematis tentang apa itu, tetapi motivasinya, saya yakin, cukup sederhana seperti ini.

d_ijk_stra
sumber