Saya menemukan referensi di artikel yang berbunyi seperti:
Menurut Tabachnick & Fidell (1996) variabel independen dengan korelasi bivariat lebih dari 0,70 tidak boleh dimasukkan dalam analisis regresi berganda.
Masalah: Saya digunakan dalam desain regresi berganda 3 variabel berkorelasi> 0,80, VIF sekitar 0,2 - .3, Toleransi ~ 4- 5. Saya tidak bisa mengecualikan salah satu dari mereka (prediktor penting dan hasil). Ketika saya regresi hasil pada 2 prediktor yang berkorelasi pada 0,80, mereka tetap signifikan, masing-masing meramalkan varian penting, dan dua variabel yang sama ini memiliki bagian terbesar dan koefisien korelasi semipartial di antara semua 10 variabel termasuk (5 kontrol).
Pertanyaan: Apakah model saya valid meskipun memiliki korelasi tinggi? Referensi apa pun sangat disambut!
Terima kasih atas jawabannya!
Saya tidak menggunakan Tabachnick dan Fidell sebagai pedoman, saya menemukan referensi ini dalam sebuah artikel yang berhubungan dengan collinearity tinggi di antara para prediktor.
Jadi, pada dasarnya, saya memiliki terlalu sedikit kasus untuk jumlah prediktor dalam model (banyak variabel, variabel kontrol kode boneka - usia, masa kerja, jenis kelamin, dll) - 13 variabel untuk 72 kasus. Indeks Kondisi adalah ~ 29 dengan semua kontrol di dan ~ 23 tanpa mereka (5 variabel).
Saya tidak bisa menghapus variabel apa pun atau menggunakan analisis faktorial untuk menggabungkan mereka karena secara teoritis mereka memiliki akal sendiri. Sudah terlambat untuk mendapatkan lebih banyak data. Karena saya sedang melakukan analisis dalam SPSS mungkin akan lebih baik untuk menemukan sintaks untuk regresi ridge (walaupun saya belum melakukan ini sebelumnya dan menafsirkan hasilnya akan baru bagi saya).
Jika itu penting, ketika saya melakukan regresi bertahap, 2 variabel yang sangat berkorelasi yang sama tetap menjadi prediktor tunggal yang signifikan untuk hasilnya.
Dan saya masih tidak mengerti jika korelasi parsial yang tinggi untuk masing-masing variabel ini penting sebagai penjelasan mengapa saya menyimpannya dalam model (jika regresi ridge tidak dapat dilakukan).
Apakah Anda akan mengatakan "Regresi diagnostik: mengidentifikasi data yang berpengaruh dan sumber collinearity / David A. Belsley, Edwin Kuh dan Roy E. Welsch, 1980" akan membantu dalam memahami multikolinieritas? Atau mungkin referensi lain bermanfaat?
Jawaban:
Masalah utama bukanlah korelasi tetapi collinearity (lihat karya Belsley, misalnya). Ini paling baik diuji menggunakan indeks kondisi (tersedia di
R
,SAS
dan mungkin juga program lain. Korelasi tidak diperlukan atau kondisi yang cukup untuk kolinearitas. Indeks kondisi lebih dari 10 (per Belsley) menunjukkan kolinearitas sedang, lebih dari 30 parah, tetapi juga tergantung di mana variabel terlibat dalam collinearity.Jika Anda menemukan collinearity tinggi, itu berarti bahwa estimasi parameter Anda tidak stabil. Artinya, perubahan kecil (kadang-kadang dalam angka signifikan ke-4) dalam data Anda dapat menyebabkan perubahan besar dalam estimasi parameter Anda (kadang-kadang bahkan membalikkan tanda mereka). Ini adalah hal yang buruk.
Solusi adalah 1) Mendapatkan lebih banyak data 2) Menjatuhkan satu variabel 3) Menggabungkan variabel (misalnya dengan kuadrat terkecil parsial) dan 4) Melakukan regresi punggungan, yang memberikan hasil yang bias tetapi mengurangi varians pada perkiraan.
sumber