Jika dalam regresi linier saya memiliki variabel kategorikal ... bagaimana saya tahu arti statistik variabel kategoris?
Katakanlah faktor memiliki 10 level ... akan ada 10 nilai t-resultan yang berbeda, di bawah payung satu variabel faktor X 1 ...
Tampaknya bagi saya bahwa makna statistik diuji untuk setiap tingkat variabel faktor? Tidak?
@ Macro: Mengikuti saran Anda, saya telah membangun contoh berikut:
Tampaknya x3 berguna dan harus dimasukkan dalam model, dari perbandingan model di bawah ini.
Tapi sebenarnya itu salah ...
n=100
x1=1:n
x2=(1:n)^2
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)
lm2=lm(y~x1+x2)
summary(lm2)
anova(lm1, lm2)
> anova(lm1, lm2)
Analysis of Variance Table
Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
Res.Df RSS Df Sum of Sq F Pr(>F)
1 96 82.782
2 97 146.773 -1 -63.99 74.207 1.401e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
x3
untuk menghasilkany
s, jadi itu harus dimasukkan dalam model dan nilai- setuju dengan kesimpulan itu.Jawaban:
Anda benar bahwa nilai- itu hanya memberi tahu Anda apakahp setiap level berbeda secara signifikan dari rata-rata level referensi. Karena itu, mereka hanya memberi tahu Anda tentang perbedaan berpasangan antara level. Untuk menguji apakah prediktor kategoris, secara keseluruhan, signifikan, sama dengan menguji apakah ada heterogenitas dalam cara tingkat-tingkat prediktor. Ketika tidak ada prediktor lain dalam model, ini adalah ANOVA klasik masalah .
Ketika ada prediktor lain dalam model. Anda memiliki dua opsi untuk menguji signifikansi prediktor kategori:
(1) Tes rasio kemungkinan: Misalkan Anda memiliki hasil , prediksi kuantitatif X i 1 , . . . , X i p dan kategoris prediktor C i dengan k tingkat. Model tanpa prediktor kategoris adalahYi Xi1,...,Xip Ci k
DalamL0 . Selanjutnya, Anda dapat menyesuaikan model dengan prediktor kategori:
R
Anda dapat cocok dengan model ini denganlm()
perintah dan ekstrak kemungkinan log denganlogLik
perintah. Sebut kemungkinan log inidi mana adalah variabel dummy yaitu 1 jika D i =Bj 1 dan 0 sebaliknya. The k 'tingkat th adalah tingkat referensi, yang mengapa hanya ada k - 1 istilah dalam jumlah. akan secara otomatis melakukan dummy coding ini untuk Anda jika Anda meneruskan variabel kategorikal ke. Anda dapat menyesuaikan model ini dengan cara yang sama dan mengekstrak kemungkinan log seperti di atas. Sebut kemungkinan log ini L 1 . Kemudian, di bawah hipotesis nol bahwa D iDi=j 0 k k−1 L1 Di tidak berpengaruh,
R
lm()
1-pchisq(2*(L1-L0),df=k-1)
R
R
R
lm()
g1
g0
anova(g1,g0)
sumber