Membandingkan dua model menggunakan fungsi anova () di R

32

Dari dokumentasi untuk anova():

Ketika diberi urutan objek, 'anova' menguji model terhadap satu sama lain dalam urutan yang ditentukan ...

Apa artinya menguji model terhadap satu sama lain? Dan mengapa pesanan itu penting?

Ini adalah contoh dari tutorial GenABEL :

    >  modelAdd = lm(qt~as.numeric(snp1))
    >  modelDom = lm(qt~I(as.numeric(snp1)>=2))
    >  modelRec = lm(qt~I(as.numeric(snp1)>=3))
     anova(modelAdd, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ as.numeric(snp1)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2320                      
    2   2371 2320  1    0.0489     0.82
     anova(modelDom, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 2)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2322                      
    2   2371 2320  1      1.77     0.18
     anova(modelRec, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 3)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)  
    1   2372 2324                        
    2   2371 2320  1      3.53    0.057 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Bagaimana cara menafsirkan output ini?

qed
sumber

Jawaban:

31

Saat Anda menggunakannya anova(lm.1,lm.2,test="Chisq"), ia melakukan uji Chi-square untuk membandingkan lm.1dan lm.2(yaitu menguji apakah pengurangan jumlah residu kuadrat signifikan secara statistik atau tidak). Perhatikan bahwa ini masuk akal hanya jika lm.1dan lm.2merupakan model bersarang.

Misalnya, dalam anova pertama yang Anda gunakan, nilai p tes adalah 0,82. Ini berarti bahwa model pas "modelAdd" tidak berbeda secara signifikan dari modelGen pada tingkat . Namun, dengan menggunakan nilai-p dalam anova ke-3, model "modelRec" secara signifikan berbeda dari model "modelGen" di .α=0,05α=0,1

Lihat juga ANOVA untuk Linear Model Fits .

Stat
sumber
1
Tetapi apakah itu menyiratkan sesuatu tentang apakah salah satu dari keduanya lebih baik? Terima kasih!
qed
5
Itu tergantung pada bagaimana Anda mendefinisikan istilah "lebih baik". Jika Anda mendefinisikannya sebagai model yang memberikan jumlah kuadrat residu yang lebih sedikit, maka jawabannya adalah ya. Ini karena, tes ini membandingkan pengurangan jumlah residu kuadrat.
Stat
3
Di sisi lain, jika kedua model tidak berbeda secara signifikan, dapatkah orang berpendapat bahwa model yang lebih sederhana adalah "lebih baik"? Saya berpikir tentang parcimony di sini.
Sininho
1
bagaimana jika anova (mod1, mod2, test = "LRT") apa bedanya ini?
ElleryL