Koefisien regresi yang membalik setelah memasukkan prediktor lain

31

Membayangkan

  • Anda menjalankan regresi linier dengan empat prediktor numerik (IV1, ..., IV4)
  • Ketika hanya IV1 yang dimasukkan sebagai prediktor, beta terstandardisasi adalah +.20
  • Ketika Anda juga memasukkan IV2 ke IV4 tanda koefisien regresi standar dari IV1 membalik -.25(yaitu, itu menjadi negatif).

Ini menimbulkan beberapa pertanyaan:

  • Berkenaan dengan terminologi, apakah Anda menyebutnya "efek penekan"?
  • Strategi apa yang akan Anda gunakan untuk menjelaskan dan memahami efek ini?
  • Apakah Anda memiliki contoh efek seperti itu dalam praktik dan bagaimana Anda menjelaskan dan memahami efek ini?
Jeromy Anglim
sumber
Bagaimana Anda menjelaskan situasi di mana koefisien mengubah tanda ketika memasukkan prediktor tetapi pasti tidak ada multikolinieritas yang terlibat (seperti yang disarankan nilai VIF rendah)? Menariknya, ketika memasukkan prediktor, tandanya berubah menjadi apa yang awalnya saya harapkan (positif). Itu negatif dalam satu regresi variabel independen sederhana (matriks korelasi menunjukkan korelasi negatif minimal dengan variabel dependen) tetapi langsung berubah positif dengan prediktor lain termasuk.
@John dapatkah Anda menghapus komentar Anda dan memposting pertanyaan Anda sebagai pertanyaan terpisah di situs ini (yaitu, menggunakan "ajukan pertanyaan di bagian atas". Jika Anda merasa bahwa pertanyaan Anda terkait dengan pertanyaan ini, maka tambahkan tautan ke pertanyaan ini di pertanyaan baru Anda
Jeromy Anglim
2
Sebuah makalah yang saya tulis dengan Seth Dutter mungkin membantu untuk mengklarifikasi hal. Ini ditulis terutama dari perspektif geometris. Inilah tautannya: arxiv.org/abs/1503.02722 . -Brian Knaeble, B., & Dutter, S. (2015). Pembalikan Estimasi Kuadrat-Minimal dan Estimasi Model-Independen untuk Arah Efek Unik. arXiv preprint arXiv: 1503.02722.

Jawaban:

26

Multicollinearity adalah tersangka biasa seperti yang disebutkan JoFrhwld. Pada dasarnya, jika variabel Anda berkorelasi positif, maka koefisien akan berkorelasi negatif, yang dapat menyebabkan tanda yang salah pada salah satu koefisien.

Satu pemeriksaan akan melakukan regresi komponen utama atau regresi ridge. Ini mengurangi dimensi ruang regresi, menangani multikolinieritas. Anda berakhir dengan estimasi yang bias tetapi kemungkinan MSE lebih rendah dan tanda-tanda yang diperbaiki. Baik Anda menggunakan hasil tertentu atau tidak, itu adalah pemeriksaan diagnostik yang baik. Jika Anda masih mendapatkan perubahan tanda, mungkin secara teoritis menarik.

MEMPERBARUI

Mengikuti dari komentar dalam jawaban John Christie, ini mungkin menarik. Pembalikan dalam asosiasi (besarnya atau arah) adalah contoh-contoh Paradox Simpson, Paradoks Tuhan, dan Efek Penindasan. Perbedaan pada dasarnya berhubungan dengan jenis variabel. Lebih bermanfaat untuk memahami fenomena yang mendasarinya daripada berpikir dalam kerangka "paradoks" atau efek tertentu. Untuk perspektif kausal, makalah di bawah ini melakukan pekerjaan yang baik untuk menjelaskan mengapa dan saya akan mengutip panjang lebar perkenalan dan kesimpulan mereka untuk membangkitkan selera Anda.

Tu et al menyajikan analisis kesetaraan tiga paradoks, menyimpulkan bahwa ketiganya hanya mengulangi perubahan yang tidak mengejutkan dalam hubungan dua variabel ketika variabel ketiga dikontrol secara statistik. Saya menyebut ini tidak mengejutkan karena pembalikan atau perubahan besarnya umum dalam analisis bersyarat. Untuk menghindari keduanya, kita harus menghindari analisis kondisional sama sekali. Ada apa dengan paradoks Simpson dan Lord atau efek penindasan, di luar yang menunjukkan hal-hal yang jelas, yang menarik minat yang terputus-putus dan terkadang mengkhawatirkan yang terlihat dalam literatur?

[...]

Sebagai kesimpulan, tidak dapat terlalu ditekankan bahwa meskipun Simpson dan paradoks terkait mengungkapkan bahaya menggunakan kriteria statistik untuk memandu analisis kausal, mereka tidak memiliki penjelasan tentang fenomena yang mereka maksudkan untuk menggambarkan maupun petunjuk tentang cara untuk menghindarinya. Penjelasan dan solusi terletak pada penalaran kausal yang bergantung pada latar belakang pengetahuan, bukan kriteria statistik. Sudah saatnya kita berhenti mengobati tanda dan gejala yang salah tafsir ('paradoks'), dan melanjutkan bisnis penanganan penyakit ('kausalitas'). Kita harus mengalihkan perhatian kita pada masalah abadi pemilihan kovariat untuk analisis kausal menggunakan data non-eksperimental.

ars
sumber
1
Terima kasih atas sarannya untuk mengeksplorasi ridge atau regresi PCA. Hanya satu poin samping mengenai komentar Anda "jika variabel Anda berkorelasi positif, maka koefisien akan berkorelasi negatif yang mengarah ke tanda pembalikan.": Prediktor berkorelasi positif tidak biasanya mengarah pada pembalikan tanda.
Jeromy Anglim
Maaf, itu penjelasan satu baris yang gagal ditulis dengan tergesa-gesa. Tetap sekarang, terima kasih.
ars
Poin bagus tentang pentingnya mekanisme kausal.
Jeromy Anglim
14

Saya percaya efek seperti ini sering disebabkan oleh collinearity (lihat pertanyaan ini ). Saya pikir buku tentang pemodelan bertingkat oleh Gelman dan Hill membicarakannya. Masalahnya adalah yang IV1berkorelasi dengan satu atau lebih dari prediktor lain, dan ketika mereka semua termasuk dalam model, estimasi mereka menjadi tidak menentu.

Jika koefisien membalik disebabkan oleh collinearity, maka itu tidak benar-benar menarik untuk dilaporkan, karena itu bukan karena hubungan antara prediktor Anda dengan hasil, tetapi benar-benar karena hubungan antara prediktor.

Apa yang saya lihat disarankan untuk menyelesaikan masalah ini adalah residualisasi. Pertama, Anda pas dengan sebuah model IV2 ~ IV1, lalu ambil residual dari model itu sebagai rIV2. Jika semua variabel Anda berkorelasi, Anda harus benar-benar residualkan semuanya. Anda dapat memilih untuk melakukannya seperti ini

rIV2 <- resid(IV2 ~ IV1)
rIV3 <- resid(IV3 ~ IV1 + rIV2)
rIV4 <- resid(IV4 ~ IV1 + rIV2 + rIV3)

Sekarang, pas dengan model terakhir

DV ~ IV1 + rIV2 + rIV3 + rIV4

Sekarang, koefisien untuk rIV2mewakili efek independen dari IV2diberikan korelasinya dengan IV1. Saya telah mendengar Anda tidak akan mendapatkan hasil yang sama jika Anda melakukan residualisasi dalam urutan yang berbeda, dan bahwa memilih urutan residualisasi benar-benar panggilan penilaian dalam penelitian Anda.

JoFrhwld
sumber
Terima kasih atas jawabannya. Saya memiliki pemikiran ini. (a) Multikolinearitas: Saya setuju. Tanpa itu, koefisien tidak boleh berubah. (B) Apakah ini menarik? Saya benar-benar berpikir bahwa tanda membalik dapat memiliki interpretasi teoretis yang menarik dalam beberapa kasus; tapi mungkin bukan dari perspektif prediksi murni. (c) Residualisasi: Saya ingin mendengar pendapat orang lain tentang pendekatan ini.
Jeromy Anglim
Saya tidak yakin apakah multikolinearitas bisa menarik. Katakanlah Anda memiliki beberapa hasil O, dan prediktor Anda adalah Incomedan Father's Income. Fakta yang Incomeberkorelasi dengan Father's Incomesecara intrinsik menarik, tetapi fakta itu akan menjadi kenyataan tidak peduli nilainya O. Artinya, Anda dapat menetapkan bahwa Oprediktor semuanya linier tanpa pernah mengumpulkan data hasil Anda, atau bahkan mengetahui apa hasilnya! Fakta-fakta itu seharusnya tidak menjadi lebih menarik begitu Anda tahu itu Obenar-benar Education.
JoFrhwld
Saya menyarankan bahwa efek penekan dapat secara teoritis menarik, yang mungkin multikolinieritas memberikan titik awal untuk penjelasan.
Jeromy Anglim
5

Lihat Paradox Simpson . Singkatnya, efek utama yang diamati dapat terbalik ketika interaksi ditambahkan ke model. Pada halaman yang ditautkan sebagian besar contoh bersifat kategoris tetapi ada gambar di bagian atas halaman yang dapat dibayangkan secara terus menerus. Misalnya, jika Anda memiliki prediktor kategoris dan kontinu maka prediktor kontinu dapat dengan mudah membalik tanda jika yang kategoris ditambahkan dan dalam setiap kategori tanda berbeda dari skor keseluruhan.

John
sumber
Poin bagus. Semua contoh Paradox Simpson berlaku untuk variabel kategori. Apakah konsep variabel supresor setara numerik?
Jeromy Anglim