Misalkan saya memiliki hasil yang terus menerus y
dan dua prediktor faktorial, masing-masing dengan dua level. Salah satu prediktor kategori saya drug
,, dapat memiliki dua level ("A" atau "B"), yang lain adalah smokeYes
. Ketika saya menjalankan model regresi saya dapat memilih garis dasar atau tingkat referensi drug
untuk menjadi "A", seperti yang saya lakukan di model1
:
set.seed(123)
y<-rnorm(100, 100, 10)
drug.ab<-factor(sample(c("A", "B"), 100, T), levels=c("A", "B"))
drug.ba<-factor(drug.ab, levels=c("B", "A"))
smoke<-factor(sample(c("Yes", "No"), 100, T), levels=c("No", "Yes"))
#model1:
coef(summary(lm(y~drug.ab*smoke)))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 100.7484158 2.065091 48.7864379 1.465848e-69
drug.abB 0.9030541 2.796146 0.3229639 7.474250e-01
smokeYes -0.8693598 2.632484 -0.3302431 7.419359e-01
drug.abB:smokeYes 0.8709116 3.746684 0.2324487 8.166844e-01
Atau saya dapat mengatur baseline ke "B", seperti yang saya lakukan di model2
:
#model2:
coef(summary(lm(y~drug.ba*smoke)))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 101.651469922 1.885161 53.9218978856 1.377147e-73
drug.baA -0.903054145 2.796146 -0.3229638818 7.474250e-01
smokeYes 0.001551843 2.666021 0.0005820821 9.995368e-01
drug.baA:smokeYes -0.870911601 3.746684 -0.2324486531 8.166844e-01
Pertanyaan saya adalah mengapa estimasi untuk smokeYes
berbeda antara model1
dan model2
? Mengapa tidak berbeda dengan perubahan tanda suka drug.baA
dan istilah interaksi?
tapply( y, interaction( drug.ab, smoke) ,mean)
. Penjelasan yang lebih luas mungkin melibatkan menunjukkan perbedaan antara kontras pengobatan dan jumlah kontras.Jawaban:
Biarkan saya membuat contoh sederhana bagi Anda untuk menjelaskan konsep, maka kami dapat memeriksanya terhadap koefisien Anda.
Perhatikan bahwa dengan memasukkan variabel dummy "A / B" dan istilah interaksi, Anda secara efektif memberikan model Anda fleksibilitas agar sesuai dengan intersep yang berbeda (menggunakan dummy) dan kemiringan (menggunakan interaksi) pada data "A" dan data "B". Dalam apa yang mengikuti itu benar-benar tidak masalah apakah prediktor lainx adalah variabel kontinu atau, seperti dalam kasus Anda, variabel dummy lain. Jika saya berbicara dalam hal "mencegat" dan "kemiringan", ini dapat diartikan sebagai "tingkat ketika boneka adalah nol" dan "berubah tingkat ketika boneka diubah dari0 untuk 1 " jika kamu memilih.
Misalkan model yang dipasang OLS pada data "A" sajay^=12+5x dan pada "B" data saja y^=11+7x . Data mungkin terlihat seperti ini:
Sekarang anggaplah kita mengambil "A" sebagai level referensi kita, dan menggunakan variabel dummyb maka b=1 untuk pengamatan di Grup B tetapi b=0 di Grup A. Model yang dipasang pada seluruh dataset adalah
Untuk pengamatan di Grup A kami punyay^i=β^0+β^1xi dan kami dapat meminimalkan jumlah residu kuadratnya dengan menetapkan β^0=12 dan β^1=5 . Untuk data Grup B,y^i=(β^0+β^2)+(β^1+β^3)xi dan kita dapat meminimalkan jumlah residu kuadrat dengan mengambil β^0+β^2=11 dan β^1+β^3=7 . Jelas bahwa kita dapat meminimalkan jumlah residu kuadrat dalam regresi keseluruhan dengan meminimalkan jumlah untuk kedua kelompok, dan bahwa ini dapat dicapai dengan menetapkanβ^0=12 dan β^1=5 (dari Grup A) dan β^2=−1 dan β^3=2 (karena data "B" harus memiliki intersep satu lebih rendah dan kemiringan dua lebih tinggi). Amati bagaimana keberadaan istilah interaksi diperlukan bagi kita untuk memiliki fleksibilitas yang memadai untuk meminimalkan jumlah residu kuadrat untuk kedua kelompok sekaligus . Model saya yang cocok adalah:
Ganti semua ini sehingga "B" adalah level referensi dana adalah pengkodean variabel dummy untuk Grup A. Dapatkah Anda melihat bahwa saya sekarang harus cocok dengan model
Artinya, saya mengambil intersepsi (11 ) dan kemiringan (7 ) dari grup "B" awal saya, dan gunakan istilah dummy dan interaksi untuk menyesuaikannya dengan grup "A" saya. Penyesuaian ini saat ini berada di arah sebaliknya (saya perlu intersep satu lebih tinggi dan kemiringan dua lebih rendah ) oleh karena itu tanda-tanda dibalik dibandingkan dengan ketika saya mengambil "A" sebagai kelompok referensi, tetapi harus jelas mengapa koefisien lainnya memiliki tidak hanya beralih tanda.
Mari kita bandingkan dengan output Anda. Dalam notasi yang mirip dengan di atas, model pertama Anda yang dilengkapi dengan baseline "A" adalah:
Model pas kedua Anda dengan baseline "B" adalah:
Pertama, mari kita verifikasi bahwa kedua model ini akan memberikan hasil yang sama. Mari kita taruhbsaya= 1 -Sebuahsaya dalam persamaan pertama, dan kami memperoleh:
Ini menyederhanakan untuk:
Sedikit aritmatika cepat menegaskan bahwa ini sama dengan model pas kedua; Selain itu sekarang harus jelas koefisien mana yang telah bertukar tanda dan koefisien mana yang telah disesuaikan dengan baseline lainnya!
Kedua, mari kita lihat apa model yang dipasang pada kelompok "A" dan "B". Model pertama Anda segera memberiy^saya= 100.7484158 - 0.8693598xsaya untuk grup "A", dan model kedua Anda segera memberi y^saya=101.651469922+0.001551843xi untuk grup "B". Anda dapat memverifikasi model pertama memberikan hasil yang benar untuk grup "B" dengan menggantibi=1 ke dalam persamaannya; aljabar, tentu saja, bekerja dengan cara yang sama seperti contoh yang lebih umum di atas. Demikian pula, Anda dapat memverifikasi bahwa model kedua memberikan hasil yang benar untuk grup "A" dengan menetapkanai=1 .
Ketiga, karena dalam kasus Anda, regresi lainnya juga merupakan variabel dummy, saya sarankan Anda menghitung sarana bersyarat yang cocok untuk keempat kategori ("A" denganx=0 , "A" dengan x=1 , "B" dengan x=0 , "B" dengan x=1 ) di bawah kedua model dan periksa Anda memahami mengapa mereka setuju. Sebenarnya ini tidak perlu, karena kami telah melakukan aljabar yang lebih umum di atas untuk menunjukkan hasilnya akan konsisten bahkan jikax terus menerus , tapi saya pikir ini tetap latihan yang berharga. Saya tidak akan mengisi rincian karena aritmatika mudah dan lebih sesuai dengan semangat jawaban JonB yang sangat bagus. Poin utama yang perlu dipahami adalah bahwa, kelompok referensi mana pun yang Anda gunakan, model Anda memiliki cukup fleksibilitas untuk disesuaikan dengan setiap mean bersyarat secara terpisah. (Di sinilah membuat perbedaan bahwa Andax adalah dummy untuk faktor biner daripada variabel kontinu - dengan prediktor kontinu kita biasanya tidak mengharapkan estimasi rata-rata bersyarat y^ untuk mencocokkan rata-rata sampel untuk setiap kombinasi prediktor yang diamati.) Hitung rata-rata sampel untuk masing-masing dari empat kombinasi kategori tersebut, dan Anda akan menemukan mereka cocok dengan rata-rata bersyarat yang sesuai.
Kode R untuk menggambar plot dan mengeksplorasi model yang sesuai, diprediksiy^ dan sarana kelompok
sumber
Itu ada hubungannya dengan bagaimana intersepsi didefinisikan. Dalam contoh pertama, intersep didefinisikan sebagai mereka yang tidak merokok dan yang memiliki obat A. Perokok, yang juga memiliki obat A, akan memiliki nilai 100,75 - 0,87 = 99,9 sedangkan perokok yang memiliki obat B akan memiliki nilai 100,75 + 0,90 - 0,87 + 0,87 = 101,65.
Dalam contoh kedua, intersep didefinisikan sebagai mereka yang tidak merokok dan memiliki obat B. Perokok dengan obat B kemudian akan memiliki nilai 101,65 + 0,001 = 101,65, dan perokok dengan obat A akan memiliki nilai 100,65 - 0,90 + 0,001-0,87 = 99,9.
Jadi semuanya menambahkan upp, itu hanya masalah bagaimana intersep didefinisikan, yaitu tingkat ketika semua faktor diatur ke kategori referensi.
sumber