Menafsirkan koefisien interaksi antara variabel kategori dan kontinu

10

Saya punya pertanyaan tentang interpretasi koefisien interaksi antara variabel kontinu dan kategorikal. di sini adalah model saya:

model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), 
               data=base_708)

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               21.4836     2.0698  10.380  < 2e-16 ***
lg_hag                     8.5691     3.7688   2.274  0.02334 *  
raceblack                 -8.4715     1.7482  -4.846 1.61e-06 ***
racemexican               -3.0483     1.7073  -1.785  0.07469 .  
racemulti/other           -4.6002     2.3098  -1.992  0.04687 *  
pdg                        2.8038     0.4268   6.570 1.10e-10 ***
sexfemale                  4.5691     1.1203   4.078 5.15e-05 ***
as.factor(educa)2         13.8266     2.6362   5.245 2.17e-07 ***
as.factor(educa)3         21.7913     2.4424   8.922  < 2e-16 ***
as.factor(educa)4         19.0179     2.5219   7.541 1.74e-13 ***
as.factor(educa)5         23.7470     2.7406   8.665  < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224     6.5904  -3.220  0.00135 ** 
lg_hag:as.factor(educa)3 -19.8083     6.1255  -3.234  0.00129 ** 
lg_hag:as.factor(educa)4  -8.5502     6.6018  -1.295  0.19577    
lg_hag:as.factor(educa)5 -17.2230     6.3711  -2.703  0.00706 ***

katakanlah persamaan model adalah:

E [gigi] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, di tengah) + kovarian lainnya, di mana

b1 = difference in cog  with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg

Pertanyaan saya adalah: jika interpretasi saya benar, bagaimana membangun interval kepercayaan untuk setiap perkiraan efek interaksi (misalnya: b1 + b2) dari interval kepercayaan b1 dan b2.

Anda Aman
sumber
tidak terlalu terbiasa dengan cara melakukannya di R. misalkan dalam sas Anda bisa mendapatkan hasil dengan pernyataan "perkiraan", lihat support.sas.com/documentation/cdl/en/statug/63033/HTML/default/…
boomean

Jawaban:

8

Interpretasi Anda terhadap koefisien model tidak sepenuhnya akurat. Biarkan saya pertama meringkas syarat-syarat model.

Variabel kategori (faktor): , , dans e x e d u c aracesexeduca

Faktor ini racememiliki empat tingkatan: .race={white,black,mexican,multi/other}

Faktornya sexmemiliki dua tingkatan: .sex={male,female}

Faktornya educamemiliki lima level: .educa={1,2,3,4,5}

Secara default, R menggunakan kontras pengobatan untuk variabel kategori. Dalam kontras ini, nilai pertama dari faktor tersebut digunakan tingkat referensi dan nilai-nilai yang tersisa diuji terhadap referensi. Jumlah maksimum kontras untuk variabel kategori sama dengan jumlah level minus satu.

Kontras untuk racememungkinkan menguji perbedaan berikut: , , danr a c e = m e x i c a n v s . r a c e = w h i t e r a c e = m u l t i / o trace=black vs.race=whiterace=mexican vs.race=whiterace=multi/other vs.race=white .

Untuk faktor , level referensi adalah , pola kontrasnya analog. Efek-efek ini dapat diartikan sebagai perbedaan dalam variabel dependen. Dalam contoh Anda, nilai rata-rata adalah unit lebih tinggi untuk dibandingkan dengan ( ).1 13.8266 e d u c a = 2 e d u c a = 1educa1cog13.8266educa=2educa=1as.factor(educa)2

Satu catatan penting: Jika kontras perlakuan untuk variabel kategori hadir dalam model, estimasi efek lebih lanjut didasarkan pada tingkat referensi dari variabel kategori jika interaksi antara efek lebih lanjut dan variabel kategori dimasukkan juga. Jika variabel tersebut bukan bagian dari interaksi, koefisiennya sesuai dengan rata-rata lereng individu himpunan bagian dari variabel ini di sepanjang semua variabel kategori yang tersisa. Efek dan berkaitan dengan efek rata-rata sehubungan dengan tingkat faktor variabel lain. Untuk menguji efek keseluruhan , Anda harus meninggalkan dane d u c a r a c e e d u c a s e xraceeducaraceeducasex luar model.

Variabel angka: danp d glg_hagpdg

Keduanya lg_hagdan pdgmerupakan variabel numerik maka koefisien mewakili perubahan dalam variabel dependen yang terkait dengan peningkatan dalam prediktor.1

Pada prinsipnya, interpretasi efek ini sangat mudah. Tetapi perhatikan bahwa jika ada interaksi, estimasi koefisien didasarkan pada kategori referensi faktor (jika kontras pengobatan digunakan). Karena bukan bagian dari interaksi, koefisiennya mengoreksi jumlah rata-rata kemiringan variabel. Variabel juga merupakan bagian dari interaksi dengan . Oleh karena itu, efeknya berlaku untuk , level dasar .; ini bukan tes pengaruh keseluruhan dari variabel numerikpdglg_hageducaeduca=1lg_hag terlepas dari tingkat faktor-faktornya.

Interaksi antara variabel kategoris dan numerik: lg_hag×educa

Model ini tidak hanya mencakup efek utama tetapi juga interaksi antara variabel numerik dan empat kontras yang terkait dengan . Efek-efek ini dapat diartikan sebagai perbedaan dalam kemiringan antara tingkat tertentu dan tingkat referensi (lg_hageducalg_hageducaeduca=1 ).

Sebagai contoh, koefisien lg_hag:as.factor(educa)2( -21.2224) berarti bahwa kemiringan adalah unit lebih rendah untuk dibandingkan dengan .21.2224 e d u c a = 2 e d u c a = 1lg_hag21.2224educa=2educa=1

Sven Hohenstein
sumber
"Koefisien interaksi ini juga berlaku untuk race=whitedan sex=malehanya." Apakah Anda yakin akan hal ini? Saya bertanya karena tidak satu racepun sexdalam interaksi dengan lg_hag×educaistilah ... Saya melihat beberapa teks saya tidak melihat ini secara eksplisit ditunjukkan.
landroni
2
@ Landroni Lereng diperkirakan untuk titik di mana semua prediktor yang tersisa sama dengan 0.
Sven Hohenstein
Ya, itu juga pemahaman saya. Semua prediktor lainnya dijaga konstan, artinya faktor-faktor tetap pada tingkat garis dasar mereka. Tapi di situlah letak teka-teki saya: saya telah melihat beberapa buku yang sebagian besar kelihatannya menutupi nuansa halus namun jauh jangkauannya. Selain itu, makalah yang sering "dikontrol oleh industri" belum menarik kesimpulan seolah-olah koefisiennya tidak bersyarat atas sampel lengkap, alih-alih menyatakan bahwa ini hanya untuk tingkat dasar. Lihat juga: stats.stackexchange.com/questions/146665/ …
landroni
1
"Jika kontras perlakuan untuk variabel kategori hadir dalam model, estimasi efek lebih lanjut didasarkan pada tingkat referensi dari variabel kategori." Setelah pertimbangan lebih lanjut, saya tidak yakin (atau saya tidak sepenuhnya mengikuti argumen Anda). Anda tampaknya menyiratkan bahwa estimasi beta untuk misalnya pdgtergantung pada tingkat referensi, yang jelas tidak demikian. Jika saya mengubah level referensi dari salah satu faktor (mis. sex), Perkiraan untuk pdgTIDAK akan berubah ...
landroni
1
@landroni Terima kasih telah menunjukkan. Anda benar, pernyataan ini menyesatkan. Sebenarnya, ini hanya berlaku untuk prediktor yang juga merupakan bagian dari istilah interaksi dengan variabel kategori. Oleh karena itu, estimasi pdgmemang tidak tergantung pada spesifikasi kontras. Saya akan memodifikasi jawabannya.
Sven Hohenstein