Interpretasi beta ketika ada beberapa variabel kategori

18

Saya memahami konsep bahwa ß 0 adalah mean ketika variabel kategoris sama dengan 0 (atau kelompok referensi), memberikan interpretasi akhir bahwa koefisien regresi adalah perbedaan mean dari dua kategori. Bahkan dengan> 2 kategori saya akan menganggap setiap β menjelaskan perbedaan antara kategori ini berarti dan referensi.β^0β^

Tetapi, bagaimana jika lebih banyak variabel dimasukkan ke dalam model multivariabel? Sekarang apa arti intersep mengingat bahwa itu tidak masuk akal untuk menjadi rata-rata untuk referensi dua variabel kategori? Contohnya adalah jika jenis kelamin (M (ref) / F) dan ras (putih (ref) / hitam) keduanya dalam model. Adalah β 0 mean untuk laki-laki hanya putih? Bagaimana seseorang menafsirkan kemungkinan lain?β^0

Sebagai catatan terpisah: apakah pernyataan kontras berfungsi sebagai cara untuk metode untuk menyelidiki modifikasi efek? Atau hanya untuk melihat efek ( β ) pada tingkat yang berbeda?β^

Renee
sumber
Sebagai catatan terminologis, "multivarian" berarti beberapa variabel respons , bukan beberapa variabel prediktor (lihat di sini ). Juga, saya tidak mengikuti pertanyaan terakhir Anda.
gung - Reinstate Monica
Terima kasih atas klarifikasi ini. Memperbaiki bahasa itu penting bagi saya! Saya kira saya tidak tahu mengapa pernyataan kontras digunakan sama sekali karena kita selalu bisa mengatur variabel referensi dengan yang bertentangan dengan yang satu?
Renee
1
Saya kira Anda bisa terus menyesuaikan model dengan tingkat referensi yang berbeda. Saya tidak yakin itu lebih nyaman. Dengan kontras, Anda juga dapat menentukan serangkaian kontras ortogonal atau kontras yang tersirat secara teoritis (A vs kombinasi B&C) untuk diuji.
gung - Reinstate Monica

Jawaban:

19

Anda benar tentang interpretasi beta ketika ada variabel kategori tunggal dengan level k . Jika ada beberapa variabel kategori (dan tidak ada istilah interaksi), mencegat ( β 0 ) adalah mean dari kelompok yang merupakan tingkat referensi untuk kedua (semua) variabel kategori. Dengan menggunakan contoh skenario Anda, pertimbangkan kasus di mana tidak ada interaksi, maka beta adalah: β^0

  • β^0: mean dari laki-laki putih
  • β^FemSebuahle: yangperbedaanantara rata-rata perempuan dan rata-rata laki-laki
  • β^BlSebuahck: iniperbedaanantara rata-rata orang kulit hitam dan kulit putih rata-rata

Kita juga dapat memikirkan hal ini dalam hal bagaimana cara menghitung berbagai kelompok berarti:

x¯White Males=β^0x¯White Females=β^0+β^Femalex¯Black Males=β^0+β^Blackx¯Black Females=β^0+β^Female+β^Black

Jika Anda memiliki istilah interaksi, itu akan ditambahkan di akhir persamaan untuk perempuan kulit hitam. (Penafsiran istilah interaksi semacam itu cukup berbelit-belit, tetapi saya berjalan di sini: Penafsiran istilah interaksi .)


Pembaruan : Untuk memperjelas poin saya, mari kita pertimbangkan contoh kalengan, kode R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

masukkan deskripsi gambar di sini

Sarana yuntuk variabel kategori ini adalah:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

Kita dapat membandingkan perbedaan antara rata-rata ini dengan koefisien dari model yang sesuai:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

Hal yang perlu diketahui tentang situasi ini adalah bahwa, tanpa istilah interaksi, kami mengasumsikan garis paralel. Jadi, Estimateuntuk (Intercept)adalah rata-rata laki-laki kulit putih. The Estimateuntuk SexFemaleperbedaan antara rata-rata perempuan dan rata-rata laki-laki. The Estimateuntuk RaceBlackperbedaan antara mean dari kulit hitam dan mean dari kulit putih. Sekali lagi, karena model tanpa istilah interaksi mengasumsikan bahwa efeknya aditif ketat (garis-garisnya paralel), rata-rata perempuan kulit hitam adalah kemudian rata-rata laki-laki kulit putih ditambah perbedaan antara rata-rata perempuan dan rata-rata laki-laki ditambah. perbedaan antara rata-rata orang kulit hitam dan rata-rata orang kulit putih.

gung - Reinstate Monica
sumber
Terima kasih! Sangat jelas & bermanfaat. Pada akhirnya Anda menyebutkan istilah interaksi. Jika seseorang melakukan istilah interaksi maka bagaimana hal ini mengubah beta (artinya beta baru dari model istilah interaksi)? Saya tahu bahwa nilai p untuk istilah interaksi itu penting, tetapi apakah istilah interaksi beta memiliki interpretasi yang bermakna? Sekali lagi terima kasih atas bantuan Anda!
Renee
1
β^Femalex¯White Malex¯White Female
Masuk akal. Terima kasih! & itu diubah dari model tanpa istilah interaksi karena istilah interaksi memperbaiki efek utama? Berarti jika tidak ada interaksi istilah efek utama secara teoritis akan sama?
Renee
Jika efek interaksi tepat 0 (ke tempat desimal tak terhingga), tidak hanya dalam populasi, tetapi juga dalam sampel Anda, betas efek utama akan sama dalam model tanpa atau tanpa istilah interaksi.
gung - Reinstate Monica
1
@ hans0l0, itu akan lebih baik sebagai pertanyaan baru daripada informasi yang terkubur di sini dalam komentar; Anda dapat menautkan ini untuk konteks. Secara singkat, ini adalah rata-rata level referensi ketika semua variabel kontinu = 0.
gung - Reinstate Monica
6

β^0β^

Jika kami memperluas sedikit contoh Anda untuk memasukkan level ketiga ke kategori ras (katakanlah Asia ) dan pilih Putih sebagai referensi, maka Anda akan memiliki:

  • β^0=x¯White
  • β^BlSebuahck=x¯BlSebuahck-x¯Whsayate
  • β^SEBUAHssayaSebuahn=x¯SEBUAHssayaSebuahn-x¯Whsayate

β^

  • x¯SEBUAHssayaSebuahn=β^SEBUAHssayaSebuahn+β^0

Sayangnya dalam kasus beberapa variabel kategori, interpretasi yang benar untuk intersep tidak lagi sejelas ini (lihat catatan di bagian akhir). Ketika ada n kategori, masing-masing dengan beberapa level dan satu level referensi (mis. Putih dan Laki - laki dalam contoh Anda), bentuk umum untuk intersep adalah:

β^0=saya=1nx¯reference,saya-(n-1)x¯,
x¯reference,saya adalah rata-rata level referensi dari variabel kategori ke-i,
x¯ adalah rata-rata dari seluruh kumpulan data

β^

Jika kita kembali ke contoh Anda, kami akan mendapatkan:

  • β^0=x¯Whsayate+x¯M.Sebuahle-x¯
  • β^BlSebuahck=x¯BlSebuahck-x¯Whsayate
  • β^SEBUAHssayaSebuahn=x¯SEBUAHssayaSebuahn-x¯Whsayate
  • β^FemSebuahle=x¯FemSebuahle-x¯M.Sebuahle

β^

β^β^0, β^BlSebuahck, β^SEBUAHssayaSebuahnβ^FemSebuahle

Contoh Numerik

Izinkan saya meminjam dari @ung untuk contoh angka kalengan:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

β^

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

Kita dapat membandingkan angka-angka ini dengan hasil regresi:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

β^β^0

β^0=x¯Whsayate+x¯M.Sebuahle-x¯
1.5 + 5.333333 - 6.166667
# 0.66666

Perhatikan pada pilihan kontras

β^

β^cHaintr.skamumβ^cHaintr.skamum

  • β^0cHaintr.skamum=x¯
  • β^sayacHaintr.skamum=x¯saya-x¯

Jika kita kembali ke contoh sebelumnya, Anda akan memiliki:

  • β^0cHaintr.skamum=x¯
  • β^WhsayatecHaintr.skamum=x¯Whsayate-x¯
  • β^BlSebuahckcHaintr.skamum=x¯BlSebuahck-x¯
  • β^SEBUAHssayaSebuahncHaintr.skamum=x¯SEBUAHssayaSebuahn-x¯
  • β^M.SebuahlecHaintr.skamum=x¯M.Sebuahle-x¯
  • β^FemSebuahlecHaintr.skamum=x¯FemSebuahle-x¯

β^cHaintr.skamum

GL
sumber