Apakah interaksi hanya bermanfaat dalam konteks regresi?

11

Saya selalu membaca istilah interaksi dalam konteks regresi. Haruskah kita juga mempertimbangkan interaksi dengan model yang berbeda misalnya knn atau svm?

Jika ada , atau bahkan lebih banyak fitur dan katakanlah pengamatan, apa cara yang biasa untuk menemukan interaksi yang bermanfaat? Coba semua kombinasi? Atau hanya gunakan kombinasi yang masuk akal?501001000

DerTom
sumber
Satu jawaban adalah bahwa interaksi yang mengurangi VIF dapat bermanfaat.
Carl
(+1) Untuk mengajukan pertanyaan yang bermanfaat.
Carl

Jawaban:

1

Interaksi diperlukan secara eksplisit dalam model regresi karena formula tidak termasuk interaksi apa pun per se. Lebih tepatnya, model regresi akan selalu linear dalam inputnya, sedangkan interaksi adalah kombinasi fitur yang nonlinier.XiXj

Cara paling sederhana untuk melihat ini adalah melalui XOR-Problem, model regresi tanpa interaksi apa pun tidak dapat menyelesaikan ini, karena memerlukan kombinasi nonlinier.

KNN dan SVM di sisi lain (dan banyak model lainnya juga) adalah penduga fungsi universal. Ini berarti bahwa mereka tidak hanya dapat menggabungkan input mereka secara linear, tetapi juga dengan cara non-linear yang memungkinkan. Itu diberi cukup lapisan atau kernel yang sesuai, mereka pada dasarnya dapat "membuat" interaksi mereka sendiri, persis seperti yang mereka butuhkan. Namun, jika Anda tahu atau mengharapkan interaksi spesifik menjadi penting, Anda masih dapat menggunakannya sebagai input untuk memandu model ke arah yang benar.

Demikian pula, model berbasis pohon dapat diartikan sebagai hanya terdiri dari interaksi. Pada dasarnya, split dalam model berbasis pohon menciptakan interaksi spesifik dengan semua variabel sebelumnya.

Jadi untuk memutuskan interaksi mana yang akan digunakan, untuk model "daya tinggi" yang cukup (yaitu yang merupakan penduga fungsi universal), Anda tidak memerlukannya dan Anda dapat membiarkan model melakukan keajaibannya sendiri. Untuk model lain tergantung. Ada beberapa teknik yang tersedia untuk memandu keputusan, seperti CHAID atau regresi bertahap. CHAID juga bekerja dengan sejumlah besar fitur, untuk regresi bertahap, ia mungkin hilang dalam sejumlah interaksi yang mungkin. Mengingat bahwa jika Anda memiliki fitur , ada kemungkinan interaksi (menghitung tidak hanya interaksi dua arah tetapi juga urutan lebih tinggi).N2N

LiKao
sumber
1

Tidak.

Bahkan, Anda dapat berpikir SVM dengan kernel polinomial menambahkan semua (urutan tinggi) interaksi antara semua fitur. Misalnya, jika kita memiliki dua fitur , SVM dengan polinomial orde kedua sedang melakukan .(x1,x2)(x12,x22,x1x2)

SVM disebut Kernel Trick, karena secara implisit melakukan ekspansi basis polinomial dengan kompleksitas komputasional yang jauh lebih sedikit. Pikirkan tentang ekspansi polinomial urutan ke-10 pada 10 fitur, yang diperluas secara manual akan memiliki kolom. Tetapi dengan menggunakan trik kernel, kita dapat dengan mudah melakukannya.1010

Jadi, tidak hanya interaksi yang telah banyak digunakan dalam model lain. Dalam menambah interaksi, model lain berusaha lebih banyak dengan rekayasa fitur. Alih-alih perkalian dua kolom, fitur yang lebih rumit diturunkan.

Haitao Du
sumber
0

Interaksi yang meningkatkan R-squared yang disesuaikan, BIC untuk regresi kemungkinan (atau AICc dan lainnya), VIF, dan F-statistik ANOVA, yang terakhir tanpa parameter individu yang dinilai non-kontribusi menggunakan probabilitas parsial mereka.

Juga sangat penting, tetapi tidak ditanyakan, adalah bahwa reparameterisasi dapat secara nyata meningkatkan efek variabel individu dan interaksinya. Namun, BIC, AIC, dan pengukuran kualitas kemungkinan lainnya tidak valid untuk membandingkan repareterisasi yang berbeda sehingga R-squared, VIF, dan F-statistik ANOVA yang disesuaikan untuk tujuan tersebut.

Carl
sumber