Bagaimana cara menghadapi korelasi yang tinggi di antara para prediktor dalam regresi berganda?

18

Saya menemukan referensi di artikel yang berbunyi seperti:

Menurut Tabachnick & Fidell (1996) variabel independen dengan korelasi bivariat lebih dari 0,70 tidak boleh dimasukkan dalam analisis regresi berganda.

Masalah: Saya digunakan dalam desain regresi berganda 3 variabel berkorelasi> 0,80, VIF sekitar 0,2 - .3, Toleransi ~ 4- 5. Saya tidak bisa mengecualikan salah satu dari mereka (prediktor penting dan hasil). Ketika saya regresi hasil pada 2 prediktor yang berkorelasi pada 0,80, mereka tetap signifikan, masing-masing meramalkan varian penting, dan dua variabel yang sama ini memiliki bagian terbesar dan koefisien korelasi semipartial di antara semua 10 variabel termasuk (5 kontrol).

Pertanyaan: Apakah model saya valid meskipun memiliki korelasi tinggi? Referensi apa pun sangat disambut!


Terima kasih atas jawabannya!

Saya tidak menggunakan Tabachnick dan Fidell sebagai pedoman, saya menemukan referensi ini dalam sebuah artikel yang berhubungan dengan collinearity tinggi di antara para prediktor.

Jadi, pada dasarnya, saya memiliki terlalu sedikit kasus untuk jumlah prediktor dalam model (banyak variabel, variabel kontrol kode boneka - usia, masa kerja, jenis kelamin, dll) - 13 variabel untuk 72 kasus. Indeks Kondisi adalah ~ 29 dengan semua kontrol di dan ~ 23 tanpa mereka (5 variabel).

Saya tidak bisa menghapus variabel apa pun atau menggunakan analisis faktorial untuk menggabungkan mereka karena secara teoritis mereka memiliki akal sendiri. Sudah terlambat untuk mendapatkan lebih banyak data. Karena saya sedang melakukan analisis dalam SPSS mungkin akan lebih baik untuk menemukan sintaks untuk regresi ridge (walaupun saya belum melakukan ini sebelumnya dan menafsirkan hasilnya akan baru bagi saya).

Jika itu penting, ketika saya melakukan regresi bertahap, 2 variabel yang sangat berkorelasi yang sama tetap menjadi prediktor tunggal yang signifikan untuk hasilnya.

Dan saya masih tidak mengerti jika korelasi parsial yang tinggi untuk masing-masing variabel ini penting sebagai penjelasan mengapa saya menyimpannya dalam model (jika regresi ridge tidak dapat dilakukan).

Apakah Anda akan mengatakan "Regresi diagnostik: mengidentifikasi data yang berpengaruh dan sumber collinearity / David A. Belsley, Edwin Kuh dan Roy E. Welsch, 1980" akan membantu dalam memahami multikolinieritas? Atau mungkin referensi lain bermanfaat?

Ander
sumber
2
Untuk contoh eksplisit dari situasi ini, lihat analisis 10 IV di stats.stackexchange.com/a/14528 . Di sini, semua infus sangat berkorelasi (sekitar 60%). Tetapi jika Anda mengecualikan mereka semua, Anda tidak akan memiliki apa pun yang tersisa! Seringkali Anda tidak dapat melepaskan salah satu dari variabel ini. Ini membuat rekomendasi T&F tidak bisa dipertahankan.
Whuber
Memang, ada sejumlah pernyataan di Tabachnick dan Fidell yang saya anggap setidaknya agak meragukan ... hanya karena sesuatu dicetak dalam sebuah buku tidak berarti itu selalu masuk akal.
Glen_b -Reinstate Monica

Jawaban:

20

Masalah utama bukanlah korelasi tetapi collinearity (lihat karya Belsley, misalnya). Ini paling baik diuji menggunakan indeks kondisi (tersedia di R, SASdan mungkin juga program lain. Korelasi tidak diperlukan atau kondisi yang cukup untuk kolinearitas. Indeks kondisi lebih dari 10 (per Belsley) menunjukkan kolinearitas sedang, lebih dari 30 parah, tetapi juga tergantung di mana variabel terlibat dalam collinearity.

Jika Anda menemukan collinearity tinggi, itu berarti bahwa estimasi parameter Anda tidak stabil. Artinya, perubahan kecil (kadang-kadang dalam angka signifikan ke-4) dalam data Anda dapat menyebabkan perubahan besar dalam estimasi parameter Anda (kadang-kadang bahkan membalikkan tanda mereka). Ini adalah hal yang buruk.

Solusi adalah 1) Mendapatkan lebih banyak data 2) Menjatuhkan satu variabel 3) Menggabungkan variabel (misalnya dengan kuadrat terkecil parsial) dan 4) Melakukan regresi punggungan, yang memberikan hasil yang bias tetapi mengurangi varians pada perkiraan.

Peter Flom - Pasang kembali Monica
sumber
Tabachnick dan Fidell menulis buku multivariat yang bagus untuk ilmu sosial. Mereka bukan ahli statistik, tetapi pengetahuan mereka tentang multivariat sangat bagus. Tapi saya pikir mereka dapat membuat aturan praktis untuk menyederhanakan dan bisa melewatkan seluk-beluk statistik. Jadi saya akan lebih mengandalkan apa yang dikatakan Peter dalam jawabannya daripada di koran mereka.
Michael R. Chernick
Terima kasih @MichaelChernick. Saya benar-benar menulis disertasi saya tentang diagnostik collinearity untuk regresi berganda.
Peter Flom - Reinstate Monica
Saya berasumsi bahwa Anda setua saya dan karena itu pekerjaan Anda datang setelah karya Belsley, Kuh dan Welsch dan Cook. Saya tahu pekerjaan Cook sebagian besar pada masalah diagnostik lainnya (leverage dan non-normalitas), tetapi apakah dia melakukan sesuatu pada multikolinieritas? Tentu saja konsep regresi ridge bahkan kembali sebelum waktu saya
Michael R. Chernick
1
@Peter Flom: Mengapa korelasi tidak diperlukan atau kondisi yang cukup untuk kolinearitas? Apakah Anda mengacu pada korelasi non-linear?
Julian
5
Itu tidak perlu karena, jika ada sejumlah besar variabel, semua pasangan hanya dapat sedikit berkorelasi namun jumlah mereka benar-benar kolinear. Itu tidak cukup karena ada kasus di mana korelasi yang cukup tinggi tidak menghasilkan collinearity bermasalah per indeks kondisi
Peter Flom - Reinstate Monica