Apakah semua istilah interaksi memerlukan istilah individualnya dalam model regresi?

68

Saya sebenarnya meninjau naskah di mana penulis membandingkan 5-6 model regresi logit dengan AIC. Namun, beberapa model memiliki istilah interaksi tanpa menyertakan istilah kovariat individu. Apakah masuk akal untuk melakukan ini?

Misalnya (tidak spesifik untuk model logit):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

Saya selalu mendapat kesan bahwa jika Anda memiliki istilah interaksi X1 * X2 Anda juga perlu X1 + X2. Oleh karena itu, model 1 dan 2 akan baik-baik saja tetapi model 3-5 akan bermasalah (bahkan jika AIC lebih rendah). Apakah ini benar? Apakah ini aturan atau lebih dari pedoman? Adakah yang punya referensi bagus yang menjelaskan alasan di balik ini? Saya hanya ingin memastikan saya tidak salah mengomunikasikan hal-hal penting dalam ulasan.

Terima kasih atas pemikiran Anda, Dan

djhocking
sumber
8
+1, saya pikir ini adalah pertanyaan yang sangat bagus. Anda mungkin juga ingin memeriksa pertanyaan sebelumnya yang mencakup sebagian besar wilayah yang sama. Jawaban di sana juga sangat bagus.
gung - Reinstate Monica
Sudah banyak jawaban bagus. Ada sebuah makalah oleh Rindskopf tentang beberapa kasus di mana Anda tidak perlu efek utama. (Lihat juga yang ini )
Peter Flom - Reinstate Monica
3
AFAIK: dalam R's lm (), :untuk interaksi, seperti dalam A: B. Dan *untuk kedua efek utama dan interaksi, jadi A * B = A + B + A: B. Jadi jika (!) Penulis makalah mengikuti notasi ini, saya tidak berpikir ada model yang hilang efek utamanya?
Zhubarb
Juga, logika yang sama dengan jawaban saat ini berlaku untuk interaksi tingkat tinggi (mis. Anda membutuhkan semua interaksi 2 arah jika Anda menyertakan 3 cara)
Peter Flom - Reinstate Monica

Jawaban:

38

yixizi

yi=β0+β1xizi+ε

Jika Anda memusatkan prediktor dengan cara mereka, menjadixizi

(xix¯)(ziz¯)=xizixiz¯zix¯+x¯z¯

Jadi, Anda dapat melihat bahwa efek utama telah diperkenalkan kembali ke dalam model.

Saya sudah memberikan argumen heuristik di sini, tetapi ini memang menyajikan masalah praktis. Seperti dicatat dalam Faraway (2005) pada halaman 114, perubahan aditif dalam skala mengubah inferensi model ketika efek utama ditinggalkan dari model, sedangkan ini tidak terjadi ketika syarat urutan lebih rendah dimasukkan. Biasanya tidak diinginkan untuk memiliki hal-hal yang sewenang-wenang seperti pergeseran lokasi menyebabkan perubahan mendasar dalam inferensi statistik (dan karenanya kesimpulan dari pertanyaan Anda), seperti yang dapat terjadi ketika Anda memasukkan istilah polinomial atau interaksi dalam model tanpa efek urutan rendah.

Catatan: Mungkin ada keadaan khusus di mana Anda hanya ingin memasukkan interaksi, jika memiliki beberapa makna substantif tertentu atau jika Anda hanya mengamati produk dan bukan variabel individu . Tetapi, dalam kasus itu, orang mungkin juga memikirkan prediktor dan melanjutkan dengan modelxizixi,ziai=xizi

yi=α0+α1ai+εi

daripada memikirkan sebagai istilah interaksi.ai

Makro
sumber
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the modelPerubahan addiktif dari prediktor umumnya mengubah t efek utama mereka (syarat pesanan lebih rendah) bahkan dalam model penuh. Ini adalah kesesuaian keseluruhan (R ^ 2) yang dipertahankan (tetapi tidak dipertahankan di bawah perubahan aditif dalam model dengan beberapa efek utama dijatuhkan). Itukah yang ingin kamu katakan?
ttnphns
Ya, itu benar @ttnphns - terima kasih telah menunjukkannya - Saya telah sedikit memodifikasi jawaban saya untuk mencerminkan ini.
Makro
28

Semua jawaban sejauh ini sepertinya melewatkan pokok yang sangat mendasar: bentuk fungsional yang Anda pilih harus cukup fleksibel untuk menangkap fitur-fitur yang relevan secara ilmiah. Model 2-5 memaksakan nol koefisien pada beberapa istilah tanpa pembenaran ilmiah. Dan bahkan jika dibenarkan secara ilmiah, Model 1 tetap menarik karena Anda mungkin juga menguji nol koefisien daripada memaksakannya.

Kuncinya adalah memahami apa arti pembatasan itu. Peringatan khas untuk menghindari Model 3-5 adalah karena dalam sebagian besar aplikasi asumsi yang mereka terapkan secara ilmiah tidak masuk akal. Model 3 mengasumsikan X2 hanya mempengaruhi kemiringan dY / dX1 tetapi tidak pada level. Model 4 mengasumsikan X1 hanya mempengaruhi kemiringan dY / dX2 tetapi tidak pada level. Dan Model 5 mengasumsikan tidak X1 maupun X2 mempengaruhi level, tetapi hanya dY / dX1 atau dY / dX2. Dalam sebagian besar aplikasi, asumsi ini sepertinya tidak masuk akal. Model 2 juga memaksakan koefisien nol tetapi masih memiliki beberapa kelebihan. Ini memberikan perkiraan linier terbaik untuk data, yang dalam banyak kasus memenuhi tujuan ilmiah.

Tristan
sumber
5
(+1) Ini semua benar, tetapi poster asli tampaknya menggambarkan situasi di mana penulis mencoba untuk melakukan pemilihan model, dan beberapa model kandidat mereka adalah orang-orang yang tidak termasuk interaksi - sehingga motivasi mereka dipandu oleh AIC daripada dengan sesuatu yang substantif (yang selalu merupakan hal yang berbahaya untuk dilakukan, tetapi tampaknya mereka telah melakukannya). Ketika Anda dibimbing oleh sesuatu yang substantif, maka struktur model harus ditentukan oleh itu. Tetapi, ketika Anda dibimbing oleh kriteria statistik, meninggalkan efek utama dapat memiliki sifat buruk, seperti yang saya tunjukkan dalam jawaban saya.
Makro
16

x1x2bisa [0, 0, 0, 1] atau [1, -1, -1, 1], tergantung pada skema pengkodean yang digunakan. Saya percaya bahwa adalah mungkin untuk memiliki situasi di mana hanya interaksi yang 'signifikan' dengan satu skema pengkodean, tetapi semua istilah 'signifikan' menggunakan skema lainnya. Ini menyiratkan bahwa keputusan interpretatif yang berarti akan dibuat berdasarkan keputusan coding sewenang-wenang yang, pada kenyataannya, perangkat lunak Anda mungkin telah dibuat untuk Anda tanpa sepengetahuan Anda. Saya menyadari bahwa ini adalah poin kecil, tapi itu hanya satu alasan lagi bahwa biasanya bukan ide yang baik untuk mempertahankan interaksi saja (dan juga untuk tidak memilih subset prediktor berdasarkan nilai-p, tentu saja).

gung - Reinstate Monica
sumber
1
Pengujian signifikansi untuk efek utama kategorikal tidak kalah penting. Suatu kelompok mungkin berbeda secara signifikan dari kelompok referensi dalam pengkodean pengobatan tetapi tidak dari efek "grand mean" di bawah pengkodean kontras.
probabilityislogic
10

Karena Anda sedang meninjau makalah Anda mungkin menyarankan agar penulis membahas masalah hierarki model dan membenarkan keberangkatan mereka dari itu.

Berikut ini beberapa referensi:

  1. Nelder JA. Pemilihan istilah dalam model permukaan respons — seberapa kuat prinsip hereditas lemah? Ahli Statistik Amerika. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Diakses 10 Juni 2010.

  2. Peixoto JL. Pemilihan variabel hierarkis dalam model regresi polinomial. Ahli Statistik Amerika. 1987; 41: 311–3. http://www.jstor.org/pss/2684752 . Diakses 10 Juni 2010.

  3. Peixoto JL. Properti model regresi polinomial yang diformulasikan dengan baik. Ahli Statistik Amerika. 1990; 44: 26-30. http://www.jstor.org/pss/2684952 . Diakses 10 Juni 2010.

Saya biasanya mengikuti hierarki tetapi meninggalkannya dalam beberapa situasi. Misalnya, jika Anda menguji keausan ban versus jarak tempuh pada beberapa kecepatan yang berbeda, model Anda mungkin terlihat seperti:

kedalaman tapak = mencegat + jarak tempuh + jarak tempuh * kecepatan

tetapi tidak masuk akal secara fisik untuk memasukkan efek utama kecepatan karena ban tidak tahu berapa kecepatan pada nol mil.

(Di sisi lain, Anda mungkin masih ingin menguji efek kecepatan karena itu mungkin menunjukkan bahwa efek "pembobolan" berbeda pada kecepatan yang berbeda. Di sisi lain, cara yang lebih baik untuk menangani pembobolan adalah dengan dapatkan data pada nol dan jarak tempuh sangat rendah dan kemudian uji non-linearitas. Perhatikan bahwa menghapus istilah intersep dapat dianggap sebagai kasus khusus pelanggaran hierarki.)

Saya juga akan mengulangi apa yang dikatakan seseorang di atas karena ini sangat penting: Penulis perlu memastikan mereka tahu apakah perangkat lunak mereka memusatkan data. Model ban di atas menjadi tidak masuk akal secara fisik jika perangkat lunak mengganti jarak tempuh dengan (jarak tempuh - rata-rata jarak tempuh).

Hal-hal yang sama relevan dalam studi stabilitas farmasi (disebutkan secara tangensial dalam "Model Stabilitas untuk Penyimpanan Berurutan", Emil M. Friedman dan Sam C. Shum, AAPS PharmSciTech, Vol. 12, No. 1, Maret 2011, DOI: 10.1208 / s12249-010-9558-x).

Emil Friedman
sumber
1
terima kasih, ini adalah jawaban yang bagus dan akan membantu saya menjelaskannya kepada orang yang tidak mengerti secara statistik.
djhocking
1
+1 Saya berharap menggabungkan jawaban pada SO. Ini dengan jawaban yang diterima di atas membentuk jawaban yang sempurna.
Zhubarb
9

Saya punya kasus nyata yang menggambarkan hal ini. Dalam data, salah satu variabel diwakili groupdengan 0-kontrol dan 1-perlakuan. Prediktor lain diwakili time perioddengan 0-sebelum pengobatan dan 1-setelah perawatan. Interaksi adalah parameter utama yang menarik yang mengukur efek dari perawatan, perbedaan setelah perawatan pada kelompok perlakuan di atas pengaruh waktu yang diukur pada kelompok kontrol. Efek utama darigroupmengukur perbedaan dalam 2 kelompok sebelum perlakuan apa pun, sehingga bisa dengan mudah menjadi 0 (dalam percobaan acak harus 0, yang ini tidak). Efek utama ke-2 mengukur perbedaan antara periode sebelum dan sesudah periode dalam kelompok kontrol di mana tidak ada pengobatan, jadi ini juga masuk akal bahwa itu bisa 0 sedangkan istilah interaksi adalah nol. Tentu saja ini tergantung pada bagaimana hal-hal dikodekan dan pengkodean yang berbeda akan mengubah artinya dan apakah interaksi masuk akal atau tidak tanpa efek utama. Jadi masuk akal untuk menyesuaikan interaksi tanpa efek utama dalam kasus-kasus tertentu.

Greg Snow
sumber
Jadi maksud Anda semua tergantung pada tujuan studi Anda ATAU berdasarkan parameter Anda?
Ben
1
@Ben, itu bisa bergantung pada bagaimana Anda membuat parameter variabel Anda (dalam contoh saya mengganti 0/1 ke 1/0 untuk salah satu variabel akan mengubah interpretasi) dan pertanyaan apa yang Anda coba jawab dan asumsi apa yang ingin Anda buat .
Greg Snow
Y=B0+B1X+B2Z+B3XZ2008+yeardummies
X & Z adalah variabel kontinu, Z adalah peringkat regulasi. tahun 2008 diberi skor 1 dan 0 untuk tahun lainnya. jadi itu seperti jika saya hanya mengambil pengamatan tahun 2008 tanpa interaksi. Saya membaca tentang prinsip hereditas yang lemah dan kuat, tetapi tidak mengerti dengan jelas
Ben
1
@ Ben, Hal ini tentu mungkin cocok dengan model di atas yang pada dasarnya mengatakan Anda pikir ada (atau mungkin) interaksi di tahun 2008, tetapi tidak di tahun lain. Jika Anda memiliki pembenaran untuk ini, maka saya pikir modelnya baik-baik saja. Tetapi ini adalah asumsi yang tidak biasa bahwa Anda mungkin perlu membenarkan hal ini kepada audiens mana pun.
Greg Snow
B1X
B1X
7

Saya setuju dengan Peter. Saya pikir aturannya adalah cerita rakyat. Mengapa kita bisa membayangkan situasi di mana dua variabel akan mempengaruhi model hanya karena interaksi. Analogi dalam kimia adalah bahwa dua bahan kimia benar-benar inert sendiri tetapi menyebabkan ledakan ketika dicampur bersama. Perbedaan matematika / statistik seperti invarian tidak ada hubungannya dengan masalah nyata dengan data nyata. Saya hanya berpikir bahwa ketika ada banyak variabel untuk dipertimbangkan ada banyak sekali pengujian yang harus dilakukan jika Anda akan melihat semua efek utama dan sebagian besar jika tidak semua interaksi urutan pertama. Kami juga hampir tidak pernah melihat interaksi urutan kedua bahkan dalam percobaan kecil dengan hanya beberapa variabel. Pemikirannya adalah bahwa semakin tinggi urutan interaksi semakin kecil kemungkinannya bahwa ada efek nyata. Jadi jangan t melihat interaksi urutan pertama atau kedua jika efek utama tidak ada. Aturan yang baik mungkin tetapi untuk mengikutinya secara religius berarti mengabaikan pengecualian dan masalah Anda mungkin merupakan pengecualian.

Michael Chernick
sumber
8
p
1
Saya mungkin salah bicara mengatakan bahwa invarian tidak memiliki relevansi di dunia nyata. Maksud saya adalah bahwa beberapa hasil matematika mungkin tidak relevan dalam masalah praktis tertentu. Sebagai contoh, estimasi kuadrat terkecil adalah kemungkinan maksimum berdasarkan asumsi kesalahan normal dan oleh teorema Gauss Markov adalah varians minimum yang tidak bias dalam kondisi yang lebih lemah, tapi saya tidak akan menggunakannya ketika ada outlier dalam data. Dengan cara yang sama haruskah properti seperti invarian menyingkirkan termasuk interaksi ketika masuk akal mengatakan secara medis bahwa itu akan terjadi tanpa efek utama?
Michael Chernick
6

[mencoba untuk menjawab bagian dari pertanyaan awal yang tampaknya dibiarkan tertutup dalam sebagian besar jawaban: "haruskah AIC, sebagai kriteria pemilihan model dipercaya?"]

AIC harus digunakan lebih sebagai pedoman, daripada aturan yang harus diambil sebagai Injil.

Efektivitas AIC (atau BIC atau kriteria 'sederhana' serupa untuk pemilihan model) sangat tergantung pada algoritma pembelajaran, dan masalahnya.

Pikirkan seperti ini: tujuan istilah kompleksitas (jumlah faktor) dalam rumus AIC sederhana: untuk menghindari pemilihan model yang terlalu pas. Tetapi kesederhanaan AIC sering gagal menangkap kompleksitas sebenarnya dari masalah itu sendiri. Inilah sebabnya mengapa ada teknik praktis lain untuk menghindari pemasangan berlebihan: misalnya, validasi silang atau menambahkan istilah regularisasi.

Ketika saya menggunakan SGD online (stochastic gradient descent) untuk melakukan regresi linier pada data-set dengan jumlah input yang sangat besar, saya menemukan AIC menjadi prediktor yang mengerikan terhadap kualitas model karena terlalu menghukum model kompleks dengan banyak istilah. Ada banyak situasi kehidupan nyata di mana setiap istilah memiliki efek kecil, tetapi bersama-sama, sejumlah besar dari mereka memberikan bukti statistik yang kuat tentang suatu hasil. Kriteria pemilihan model AIC dan BIC akan menolak model ini dan lebih suka yang lebih sederhana, meskipun yang lebih kompleks lebih unggul.

Pada akhirnya, kesalahan generalisasi (kira-kira: di luar kinerja sampel) yang diperhitungkan. AIC dapat memberi Anda beberapa petunjuk kualitas model dalam beberapa situasi yang relatif sederhana. Berhati-hatilah dan ingat bahwa kehidupan nyata lebih sering daripada tidak, lebih kompleks daripada formula sederhana.

diri sendiri
sumber