Dalam regresi berganda, mengapa interaksi dimodelkan sebagai produk, dan bukan sesuatu yang lain, dari prediktor?

8

Pertimbangkan regresi linier berganda. Pertanyaan ini mungkin tampak sederhana, tetapi saya mencoba untuk memahami secara intuitif mengapa, katakanlah jika saya memiliki prediktor X1 dan X2, maka interaksi antara prediktor ini dapat ditangkap secara memadai oleh X1 * X2.

Saya tahu istilah interaksi dimodelkan sebagai produk, hanya karena itulah yang diajarkan kepada saya di sekolah, dan itulah yang dikatakan setiap orang untuk dilakukan. Saya menduga mungkin ada beberapa argumen geometris.

Tetapi mengapa suatu produk (misalnya dua fitur numerik, dan bukan kompleksitas tambahan mengalikan dengan satu menjadi variabel dummy sedangkan lainnya adalah numerik dll) akan menangkap interaksi secara memadai?

Mengapa "interaksi" tidak ditangkap dengan baik oleh f (X1, X2) lainnya secara default, bukannya secara khusus X1 * X2?

Saya dapat melihat gagasan bahwa X1 * X2 dapat menangkap situasi di mana tanda-tanda X1 dan X2 adalah sama atau tidak, tetapi lalu mengapa tidak, katakanlah, dengan interaksi standar dimodelkan oleh katakanlah f (X1, X2) = tanda (X1 ) * masuk (X2) bukan f (X1, X2) = X1X2?

Saya menyadari bahwa saya dapat menambahkan f (X1, X2) lainnya ke regresi atau model prediktif apa pun, tetapi menemukan bentuk interaksi yang tepat dengan koding tangan memakan waktu. Bagaimana saya tahu X1X2 adalah tebakan pertama yang bagus?

Proyek Chilli
sumber

Jawaban:

6

Kita dapat membayangkan "interaksi" antara variabel regressor dan sebagai penyimpangan dari hubungan linear sempurnax1x2 di mana hubungan antara satu regressor dan responsnya berbeda untuk nilai yang berbeda dari regressor lainnya. "Istilah interaksi" yang biasa, dalam arti harus dijelaskan di bawah, adalah keberangkatan semacam itu "paling sederhana".

Definisi dan Konsep

"Hubungan linear" hanya berarti model yang biasa di mana kita mengandaikan respons berbeda dari kombinasi linear (dan konstanta) dengan independen, kesalahan rata-rata nolYxiε:

(*)Y=β0+β1x1+β2x2+ε.

"Interaksi," dalam arti paling umum, berarti parameter mungkin tergantung pada variabel lain.βi

Khususnya, dalam contoh dua regresi ini saja, kita dapat menulis secara umum

β1=β1(x2) and β2=β2(x1).

Analisis

Sekarang, dalam praktiknya, tidak ada seorang pun kecuali seorang fisikawan teoretis yang benar-benar percaya bahwa model sepenuhnya akurat: ini merupakan perkiraan terhadap kebenaran dan, kami harap, yang paling dekat. Mengejar ide ini lebih lanjut, kita mungkin bertanya apakah kita dapat memperkirakan fungsi yang dengan dalam fungsi linear jika kita perlu memodelkan beberapa jenis interaksi. Secara khusus, kami dapat mencoba menulis()βi

β1(x2)=γ0+γ1x2+ tiny error1;
β2(x1)=δ0+δ1x1+ tiny error2.

Mari kita lihat ke mana arahnya. Memasukkan pendekatan linear ini ke dalam memberi()

Y=β0+β1(x2)x1+β2(x1)x2+ε=β0+(γ0+γ1x2+ tiny error1)x1+(δ0+δ1x1+ tiny error2)x2+ε=β0+γ0x1+δ0x2+(γ1+δ1)x1x2+

di mana " " mewakili kesalahan total,

=( tiny error1)x1+( tiny error2)x2+ε.

Dengan sedikit keberuntungan, mengalikan kedua "kesalahan kecil" dengan nilai-nilai khas akan (a) tidak penting dibandingkan dengan atau (b) dapat diperlakukan sebagai istilah acak yang, ketika ditambahkan ke (dan mungkin menyesuaikan istilah konstan untuk mengakomodasi bias sistematis) dapat diperlakukan sebagai istilah kesalahan acak. xiεεβ0

Dalam kedua kasus, dengan perubahan notasi kita melihat bahwa model linear-aproksimasi-ke-an-interaksi ini mengambil bentuk

(**)Y=β0+β1x1+β2x2+β12x1x2+ε,

yang merupakan model regresi "interaksi" yang biasa. (Perhatikan bahwa tidak ada parameter baru, atau itu sendiri, adalah kuantitas yang sama yang pada awalnya diwakili oleh istilah-istilah tersebut dalam )ε().

Amati bagaimana muncul melalui variasi di kedua parameter asli. Ini menangkap kombinasi dari (i) bagaimana koefisien bergantung pada (yaitu, melalui ) dan (ii) bagaimana koefisien bergantung pada (melalui ).β12x1x2γ1x2x1δ1


Beberapa konsekuensi

Ini adalah konsekuensi dari analisis ini bahwa jika kita memperbaiki semua kecuali satu dari regresi, maka (secara kondisional ) respons masih merupakan fungsi linier dari sisa regresi. Y Misalnya, jika kita memperbaiki nilai maka kita dapat menulis ulang model interaksi sebagaix2,()

Y=(β0+β2x2)+(β1+β12x2)x1+ε,

di mana intersep adalah dan kemiringan (yaitu, koefisien ) adalah Ini memungkinkan deskripsi dan wawasan yang mudah. Secara geometris, permukaan diberikan oleh fungsiβ0+β2x2x1β1+β2x2.

f(x1,x2)=β0+β1x1+β2x2+β12x1x2

adalah memerintah: ketika kita mengiris itu sejajar dengan salah satu sumbu koordinat, hasilnya selalu garis. (Namun, permukaan itu sendiri tidak planar kecuali ketika Memang, di mana-mana memiliki lengkungan Gaussian negatif.)β12=0.

Akhirnya, jika harapan kami untuk (a) atau (b) tidak berjalan dengan baik, kami dapat lebih memperluas perilaku fungsional dari untuk memasukkan persyaratan urutan kedua atau lebih tinggi. Melakukan analisis yang sama menunjukkan ini akan memperkenalkan istilah formulir dan seterusnya ke dalam model. Dalam pengertian ini, termasuk istilah interaksi (produk) hanyalah langkah pertama - dan paling sederhana - menuju pemodelan hubungan nonlinear antara respon dan regresi dengan menggunakan fungsi polinomial.βix12, x22, x1x22, x12x2,

Akhirnya, dalam buku pelajarannya EDA (Addison-Wesley 1977), John Tukey menunjukkan bagaimana pendekatan ini dapat dilakukan jauh lebih umum. Setelah "re-expressing" pertama (yaitu, menerapkan transformasi non-linear yang sesuai untuk) regressor dan respon, sering terjadi bahwa salah satu model berlaku untuk variabel yang diubah atau, jika tidak, model dapat dengan mudah cocok (menggunakan analisis residu yang kuat). Hal ini memungkinkan berbagai macam hubungan nonlinear untuk diekspresikan dan ditafsirkan sebagai respons linear bersyarat.()()

whuber
sumber
1
Ini adalah jawaban terinci yang indah. Terima kasih. Selain itu, saya terus melihat referensi ke buku Tukey yang muncul di situs ini ... meskipun sudah sangat tua. Mungkin sudah waktunya untuk membacanya.
ChilliProject