Apa praktik terbaik dalam mengidentifikasi efek interaksi?

35

Selain secara harfiah menguji setiap kemungkinan kombinasi variabel dalam suatu model ( x1:x2atau x1*x2 ... xn-1 * xn). Bagaimana Anda mengidentifikasi jika interaksi HARUS atau BISA ada antara variabel independen Anda (semoga)?

Apa praktik terbaik dalam mencoba mengidentifikasi interaksi? Apakah ada teknik grafis yang bisa atau tidak Anda gunakan?

Brandon Bertelsen
sumber
Anda bisa memberi tahu kami sedikit tentang data Anda? ukuran (lih jawaban saya) dan alam (cf jawaban Gavin)
robin girard
@Robin: Beri dia waktu untuk bangun dari tempat tidur, Brandon ada di Toronto ;-)
Reinstate Monica - G. Simpson
1
@Robin, saya lebih suka membuatnya lebih umum. Jika, dalam respons Anda, Anda memberikan metode yang memerlukan asumsi tentang ukuran atau sifat data, sebutkan saja. Masalahnya saya mengalami sejumlah tugas pemodelan yang berbeda, semua dengan data yang berbeda. Jadi, dalam hal ini, saya mencari rekomendasi umum untuk mengidentifikasi efek interaksi.
Brandon Bertelsen

Jawaban:

20

Cox dan Wermuth (1996) atau Cox (1984) membahas beberapa metode untuk mendeteksi interaksi. Masalahnya biasanya seberapa umum istilah interaksi seharusnya. Pada dasarnya, kami (a) cocok (dan menguji) semua istilah interaksi orde kedua, satu per satu, dan (b) memplot nilai-p yang sesuai (yaitu, No. No. sebagai fungsi ). Idenya adalah untuk melihat apakah sejumlah istilah interaksi harus dipertahankan: Di bawah asumsi bahwa semua istilah interaksi adalah nol, distribusi nilai-p harus seragam (atau ekuivalen, titik-titik pada sebar plot harus didistribusikan secara kasar sepanjang sebuah garis yang melewati titik asal).1-hal

Sekarang, seperti yang dikatakan @Gavin , menyesuaikan banyak (jika tidak semua) interaksi dapat menyebabkan overfitting, tetapi juga tidak berguna dalam arti tertentu (beberapa istilah interaksi tingkat tinggi seringkali tidak masuk akal sama sekali). Namun, ini ada hubungannya dengan interpretasi, bukan deteksi interaksi, dan review yang baik sudah disediakan oleh Cox dalam Interpretasi interaksi: Sebuah review ( The Annals of Applied Statistics 2007, 1 (2), 371-385) - itu termasuk referensi yang dikutip di atas. Garis penelitian lain yang layak untuk dilihat adalah studi tentang efek epistatik dalam studi genetika, khususnya metode yang didasarkan pada model grafis (misalnya, Metode yang efisien untuk mengidentifikasi interaksi statistik dalam jaringan asosiasi gen ).

Referensi

  • Cox, DR dan Wermuth, N (1996). Ketergantungan Multivariat: Model, Analisis dan Interpretasi . Chapman dan Hall / CRC.
  • Cox, DR (1984). Interaksi . Tinjauan Statistik Internasional , 52, 1–31.
chl
sumber
16

Praktik terbaik saya adalah memikirkan masalah yang akan dihadapi sebelum memasang model. Apa model yang masuk akal mengingat fenomena yang sedang Anda pelajari? Menyesuaikan semua kombinasi variabel dan interaksi yang mungkin terdengar seperti pengerukan data bagi saya.

Pasang kembali Monica - G. Simpson
sumber
5
terdengar seperti komentar atau apakah jawabannya "berpikir"?
robin girard
2
@Robin - yang terakhir. Saya menemukan pemodelan statistik cukup sulit (saya seorang ahli ekologi dengan sedikit pelatihan statistik formal, sebagian besar dari apa yang saya pelajari adalah otodidak) tetapi jauh lebih mudah jika saya memikirkan masalahnya terlebih dahulu, menentukan apa yang masuk akal, bangun model itu, lakukan diagnosa model saya, coba interaksi di mana ini masuk akal secara ilmiah.
Pasang kembali Monica - G. Simpson
2
@Brandon: Jika ada interaksi yang hilang, akan ada pola dalam residu yang bergantung pada nilai-nilai kovariat. Merencanakan residu melawan kovariat dapat membantu menentukan di mana interaksi mungkin tepat.
Pasang kembali Monica - G. Simpson
2
@Brandon: Ini adalah model diagnostik standar dan keterampilan merencanakan eksplorasi. Saya akan merencanakan residu terhadap salah satu kovariat yang saya pikir mungkin menjadi kandidat untuk interaksi, dikondisikan (dengan cara ggplot2 atau kisi) pada nilai-nilai kovariat yang saya pikir terlibat dalam interaksi. Tempelkan loess yang lebih halus melalui setiap panel untuk melihat apakah ada pola. Tergantung pada jenis variabel apa kovariat Anda.
Pasang kembali Monica - G. Simpson
2
Pengerukan data? Jika Anda menyiksa data cukup lama, itu akan mengaku ...
Penasaran
16

Menyesuaikan model pohon (yaitu menggunakan R), akan membantu Anda mengidentifikasi interaksi kompleks antara variabel penjelas. Baca contoh di halaman 30 di sini .

George Dontas
sumber
Sangat sederhana dan sangat bermanfaat. Terima kasih untuk referensi teks Crawley juga!
Brandon Bertelsen
Berhati-hatilah - Anda tidak dapat dengan mudah menyesuaikan interaksi semacam itu di katakan model linier. Interaksi hanya terjadi dalam satu cabang pohon (atau bagian dari). Anda membutuhkan banyak data untuk menggunakan alat semacam ini di data dunia nyata.
Pasang kembali Monica - G. Simpson
3
Seperti yang dikatakan @Gavin, salah satu jebakan potensial adalah bahwa pohon keputusan memerlukan ukuran sampel yang besar dan cukup tidak stabil (yang merupakan salah satu alasan mengapa hutan kantung dan pengacakan diusulkan sebagai alternatif yang layak). Masalah lain adalah tidak jelas apakah kita mencari efek interaksi tingkat kedua atau lebih tinggi. Dalam kasus sebelumnya, CARTs bukan solusi. Dalam kasus apa pun, saya akan menemukan sangat meragukan interpretasi dari interaksi antara 6 variabel dalam setiap jenis studi (observasional atau terkontrol).
chl
7

Saya akan mengawali tanggapan ini karena saya sepenuhnya setuju dengan Gavin, dan jika Anda tertarik untuk memasang model apa pun, itu harus mencerminkan fenomena yang sedang diteliti. Apa masalahnya dengan logika mengidentifikasi setiap dan semua efek (dan apa yang Gavin rujuk ketika ia mengatakan pengerukan data) adalah bahwa Anda dapat menyesuaikan jumlah interaksi yang tak terbatas, atau istilah kuadrat untuk variabel, atau transformasi ke data Anda, dan Anda pasti akan menemukan efek "signifikan" untuk beberapa variasi data Anda.

Seperti yang dinyatakan oleh chl, efek interaksi tingkat tinggi ini tidak benar-benar memiliki interpretasi apa pun, dan sering kali interaksi tingkat bawah pun tidak masuk akal. Jika Anda tertarik mengembangkan model sebab-akibat, Anda hanya perlu memasukkan istilah-istilah yang Anda yakini sesuai dengan variabel dependen Anda A priori untuk menyesuaikan model Anda.

Jika Anda yakin mereka dapat meningkatkan daya prediksi model Anda, Anda harus mencari sumber daya tentang teknik pemilihan model untuk mencegah pemasangan model yang berlebihan.

Andy W
sumber
7

n

n

Jika Anda ingin tahu apakah proporsi varian ini signifikan, Anda harus melakukan pemodelan (secara kasar, Anda perlu mengetahui jumlah derajat kebebasan model Anda untuk membandingkannya dengan varian).

Apakah variabel Anda diskrit atau kontinu? dibatasi atau tidak benar-benar (yaitu Anda tidak tahu yang maksimal)?

robin girard
sumber
terima kasih untuk arahan ke indeks Sobol. Sekali lagi, saya ingin menentukan bahwa saya mencari jawaban umum daripada jawaban khusus di sini. Saya tidak bertanya tentang set data tertentu tetapi mencoba menjelaskan masalah yang saya alami dengan sejumlah set berbeda.
Brandon Bertelsen