Saya punya pertanyaan tentang interpretasi koefisien interaksi antara variabel kontinu dan kategorikal. di sini adalah model saya:
model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)),
data=base_708)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 21.4836 2.0698 10.380 < 2e-16 ***
lg_hag 8.5691 3.7688 2.274 0.02334 *
raceblack -8.4715 1.7482 -4.846 1.61e-06 ***
racemexican -3.0483 1.7073 -1.785 0.07469 .
racemulti/other -4.6002 2.3098 -1.992 0.04687 *
pdg 2.8038 0.4268 6.570 1.10e-10 ***
sexfemale 4.5691 1.1203 4.078 5.15e-05 ***
as.factor(educa)2 13.8266 2.6362 5.245 2.17e-07 ***
as.factor(educa)3 21.7913 2.4424 8.922 < 2e-16 ***
as.factor(educa)4 19.0179 2.5219 7.541 1.74e-13 ***
as.factor(educa)5 23.7470 2.7406 8.665 < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224 6.5904 -3.220 0.00135 **
lg_hag:as.factor(educa)3 -19.8083 6.1255 -3.234 0.00129 **
lg_hag:as.factor(educa)4 -8.5502 6.6018 -1.295 0.19577
lg_hag:as.factor(educa)5 -17.2230 6.3711 -2.703 0.00706 ***
katakanlah persamaan model adalah:
E [gigi] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, di tengah) + kovarian lainnya, di mana
b1 = difference in cog with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg
Pertanyaan saya adalah: jika interpretasi saya benar, bagaimana membangun interval kepercayaan untuk setiap perkiraan efek interaksi (misalnya: b1 + b2) dari interval kepercayaan b1 dan b2.
Jawaban:
Interpretasi Anda terhadap koefisien model tidak sepenuhnya akurat. Biarkan saya pertama meringkas syarat-syarat model.
Variabel kategori (faktor): , , dans e x e d u c ar a c e s e x e du c a
Faktor inir a c e = { w h i t e , b l a c k , m e x i c a n , m u l t i / o t h e r }
race
memiliki empat tingkatan: .Faktornyas e x = { m a l e , fe m a l e }
sex
memiliki dua tingkatan: .Faktornyae du c a = { 1 , 2 , 3 , 4 , 5 }
educa
memiliki lima level: .Secara default, R menggunakan kontras pengobatan untuk variabel kategori. Dalam kontras ini, nilai pertama dari faktor tersebut digunakan tingkat referensi dan nilai-nilai yang tersisa diuji terhadap referensi. Jumlah maksimum kontras untuk variabel kategori sama dengan jumlah level minus satu.
Kontras untukr a c e = b l a c k v s . r a c e = w h i t e r a c e = m e x saya c a n v s . r a c e = w h i t e r a c e = m u l t i / o t h e r v s . r a c e = w h i t e .
race
memungkinkan menguji perbedaan berikut: , , danr a c e = m e x i c a n v s . r a c e = w h i t e r a c e = m u l t i / o tUntuk faktor , level referensi adalah , pola kontrasnya analog. Efek-efek ini dapat diartikan sebagai perbedaan dalam variabel dependen. Dalam contoh Anda, nilai rata-rata adalah unit lebih tinggi untuk dibandingkan dengan ( ).1 13.8266 e d u c a = 2 e d u c a = 1e du c a 1 13.8266 e du c a = 2 e du c a = 1
cog
as.factor(educa)2
Satu catatan penting: Jika kontras perlakuan untuk variabel kategori hadir dalam model, estimasi efek lebih lanjut didasarkan pada tingkat referensi dari variabel kategori jika interaksi antara efek lebih lanjut dan variabel kategori dimasukkan juga. Jika variabel tersebut bukan bagian dari interaksi, koefisiennya sesuai dengan rata-rata lereng individu himpunan bagian dari variabel ini di sepanjang semua variabel kategori yang tersisa. Efek dan berkaitan dengan efek rata-rata sehubungan dengan tingkat faktor variabel lain. Untuk menguji efek keseluruhan , Anda harus meninggalkan dane d u c a r a c e e d u c a s e xr a c e e du c a r a c e e du c a s e x luar model.
Variabel angka: danp d gl g_ h a g p dg
Keduanya1
lg_hag
danpdg
merupakan variabel numerik maka koefisien mewakili perubahan dalam variabel dependen yang terkait dengan peningkatan dalam prediktor.Pada prinsipnya, interpretasi efek ini sangat mudah. Tetapi perhatikan bahwa jika ada interaksi, estimasi koefisien didasarkan pada kategori referensi faktor (jika kontras pengobatan digunakan). Karena bukan bagian dari interaksi, koefisiennya mengoreksi jumlah rata-rata kemiringan variabel. Variabel juga merupakan bagian dari interaksi dengan . Oleh karena itu, efeknya berlaku untuk , level dasar .; ini bukan tes pengaruh keseluruhan dari variabel numerikp dg l g_ h a g e du c a e du c a = 1 l g_ h a g terlepas dari tingkat faktor-faktornya.
Interaksi antara variabel kategoris dan numerik:l g_ h a g× e du c a
Model ini tidak hanya mencakup efek utama tetapi juga interaksi antara variabel numerik dan empat kontras yang terkait dengan . Efek-efek ini dapat diartikan sebagai perbedaan dalam kemiringan antara tingkat tertentu dan tingkat referensi (l g_ h a g e du c a l g_ h a g e du c a e du c a = 1 ).
Sebagai contoh, koefisienl g_ h a g 21.2224 e du c a = 2 e du c a = 1
lg_hag:as.factor(educa)2
(-21.2224
) berarti bahwa kemiringan adalah unit lebih rendah untuk dibandingkan dengan .21.2224 e d u c a = 2 e d u c a = 1sumber
race=white
dansex=male
hanya." Apakah Anda yakin akan hal ini? Saya bertanya karena tidak saturace
punsex
dalam interaksi denganlg_hag×educa
istilah ... Saya melihat beberapa teks saya tidak melihat ini secara eksplisit ditunjukkan.pdg
tergantung pada tingkat referensi, yang jelas tidak demikian. Jika saya mengubah level referensi dari salah satu faktor (mis.sex
), Perkiraan untukpdg
TIDAK akan berubah ...pdg
memang tidak tergantung pada spesifikasi kontras. Saya akan memodifikasi jawabannya.