Saya memahami konsep bahwa ß 0 adalah mean ketika variabel kategoris sama dengan 0 (atau kelompok referensi), memberikan interpretasi akhir bahwa koefisien regresi adalah perbedaan mean dari dua kategori. Bahkan dengan> 2 kategori saya akan menganggap setiap β menjelaskan perbedaan antara kategori ini berarti dan referensi.
Tetapi, bagaimana jika lebih banyak variabel dimasukkan ke dalam model multivariabel? Sekarang apa arti intersep mengingat bahwa itu tidak masuk akal untuk menjadi rata-rata untuk referensi dua variabel kategori? Contohnya adalah jika jenis kelamin (M (ref) / F) dan ras (putih (ref) / hitam) keduanya dalam model. Adalah β 0 mean untuk laki-laki hanya putih? Bagaimana seseorang menafsirkan kemungkinan lain?
Sebagai catatan terpisah: apakah pernyataan kontras berfungsi sebagai cara untuk metode untuk menyelidiki modifikasi efek? Atau hanya untuk melihat efek ( β ) pada tingkat yang berbeda?
Jawaban:
Anda benar tentang interpretasi beta ketika ada variabel kategori tunggal dengan levelk . Jika ada beberapa variabel kategori (dan tidak ada istilah interaksi), mencegat ( β 0 ) adalah mean dari kelompok yang merupakan tingkat referensi untuk kedua (semua) variabel kategori. Dengan menggunakan contoh skenario Anda, pertimbangkan kasus di mana tidak ada interaksi, maka beta adalah: β^0
Kita juga dapat memikirkan hal ini dalam hal bagaimana cara menghitung berbagai kelompok berarti:
x¯White Malesx¯White Femalesx¯Black Malesx¯Black Females=β^0=β^0+β^Female=β^0+β^Black=β^0+β^Female+β^Black
Jika Anda memiliki istilah interaksi, itu akan ditambahkan di akhir persamaan untuk perempuan kulit hitam. (Penafsiran istilah interaksi semacam itu cukup berbelit-belit, tetapi saya berjalan di sini: Penafsiran istilah interaksi .)
Pembaruan : Untuk memperjelas poin saya, mari kita pertimbangkan contoh kalengan, kode
R
.Sarana
y
untuk variabel kategori ini adalah:Kita dapat membandingkan perbedaan antara rata-rata ini dengan koefisien dari model yang sesuai:
Hal yang perlu diketahui tentang situasi ini adalah bahwa, tanpa istilah interaksi, kami mengasumsikan garis paralel. Jadi,
Estimate
untuk(Intercept)
adalah rata-rata laki-laki kulit putih. TheEstimate
untukSexFemale
perbedaan antara rata-rata perempuan dan rata-rata laki-laki. TheEstimate
untukRaceBlack
perbedaan antara mean dari kulit hitam dan mean dari kulit putih. Sekali lagi, karena model tanpa istilah interaksi mengasumsikan bahwa efeknya aditif ketat (garis-garisnya paralel), rata-rata perempuan kulit hitam adalah kemudian rata-rata laki-laki kulit putih ditambah perbedaan antara rata-rata perempuan dan rata-rata laki-laki ditambah. perbedaan antara rata-rata orang kulit hitam dan rata-rata orang kulit putih.sumber
Jika kami memperluas sedikit contoh Anda untuk memasukkan level ketiga ke kategori ras (katakanlah Asia ) dan pilih Putih sebagai referensi, maka Anda akan memiliki:
Sayangnya dalam kasus beberapa variabel kategori, interpretasi yang benar untuk intersep tidak lagi sejelas ini (lihat catatan di bagian akhir). Ketika ada n kategori, masing-masing dengan beberapa level dan satu level referensi (mis. Putih dan Laki - laki dalam contoh Anda), bentuk umum untuk intersep adalah:
Jika kita kembali ke contoh Anda, kami akan mendapatkan:
Contoh Numerik
Izinkan saya meminjam dari @ung untuk contoh angka kalengan:
Kita dapat membandingkan angka-angka ini dengan hasil regresi:
Perhatikan pada pilihan kontras
Jika kita kembali ke contoh sebelumnya, Anda akan memiliki:
sumber