Selain secara harfiah menguji setiap kemungkinan kombinasi variabel dalam suatu model ( x1:x2
atau x1*x2 ... xn-1 * xn
). Bagaimana Anda mengidentifikasi jika interaksi HARUS atau BISA ada antara variabel independen Anda (semoga)?
Apa praktik terbaik dalam mencoba mengidentifikasi interaksi? Apakah ada teknik grafis yang bisa atau tidak Anda gunakan?
regression
modeling
interaction
Brandon Bertelsen
sumber
sumber
Jawaban:
Cox dan Wermuth (1996) atau Cox (1984) membahas beberapa metode untuk mendeteksi interaksi. Masalahnya biasanya seberapa umum istilah interaksi seharusnya. Pada dasarnya, kami (a) cocok (dan menguji) semua istilah interaksi orde kedua, satu per satu, dan (b) memplot nilai-p yang sesuai (yaitu, No. No. sebagai fungsi ). Idenya adalah untuk melihat apakah sejumlah istilah interaksi harus dipertahankan: Di bawah asumsi bahwa semua istilah interaksi adalah nol, distribusi nilai-p harus seragam (atau ekuivalen, titik-titik pada sebar plot harus didistribusikan secara kasar sepanjang sebuah garis yang melewati titik asal).1 - hal
Sekarang, seperti yang dikatakan @Gavin , menyesuaikan banyak (jika tidak semua) interaksi dapat menyebabkan overfitting, tetapi juga tidak berguna dalam arti tertentu (beberapa istilah interaksi tingkat tinggi seringkali tidak masuk akal sama sekali). Namun, ini ada hubungannya dengan interpretasi, bukan deteksi interaksi, dan review yang baik sudah disediakan oleh Cox dalam Interpretasi interaksi: Sebuah review ( The Annals of Applied Statistics 2007, 1 (2), 371-385) - itu termasuk referensi yang dikutip di atas. Garis penelitian lain yang layak untuk dilihat adalah studi tentang efek epistatik dalam studi genetika, khususnya metode yang didasarkan pada model grafis (misalnya, Metode yang efisien untuk mengidentifikasi interaksi statistik dalam jaringan asosiasi gen ).
Referensi
sumber
Praktik terbaik saya adalah memikirkan masalah yang akan dihadapi sebelum memasang model. Apa model yang masuk akal mengingat fenomena yang sedang Anda pelajari? Menyesuaikan semua kombinasi variabel dan interaksi yang mungkin terdengar seperti pengerukan data bagi saya.
sumber
Menyesuaikan model pohon (yaitu menggunakan R), akan membantu Anda mengidentifikasi interaksi kompleks antara variabel penjelas. Baca contoh di halaman 30 di sini .
sumber
Saya akan mengawali tanggapan ini karena saya sepenuhnya setuju dengan Gavin, dan jika Anda tertarik untuk memasang model apa pun, itu harus mencerminkan fenomena yang sedang diteliti. Apa masalahnya dengan logika mengidentifikasi setiap dan semua efek (dan apa yang Gavin rujuk ketika ia mengatakan pengerukan data) adalah bahwa Anda dapat menyesuaikan jumlah interaksi yang tak terbatas, atau istilah kuadrat untuk variabel, atau transformasi ke data Anda, dan Anda pasti akan menemukan efek "signifikan" untuk beberapa variasi data Anda.
Seperti yang dinyatakan oleh chl, efek interaksi tingkat tinggi ini tidak benar-benar memiliki interpretasi apa pun, dan sering kali interaksi tingkat bawah pun tidak masuk akal. Jika Anda tertarik mengembangkan model sebab-akibat, Anda hanya perlu memasukkan istilah-istilah yang Anda yakini sesuai dengan variabel dependen Anda A priori untuk menyesuaikan model Anda.
Jika Anda yakin mereka dapat meningkatkan daya prediksi model Anda, Anda harus mencari sumber daya tentang teknik pemilihan model untuk mencegah pemasangan model yang berlebihan.
sumber
Jika Anda ingin tahu apakah proporsi varian ini signifikan, Anda harus melakukan pemodelan (secara kasar, Anda perlu mengetahui jumlah derajat kebebasan model Anda untuk membandingkannya dengan varian).
Apakah variabel Anda diskrit atau kontinu? dibatasi atau tidak benar-benar (yaitu Anda tidak tahu yang maksimal)?
sumber