Ketika bekerja dengan banyak variabel input, kita sering khawatir tentang multikolinieritas . Ada sejumlah ukuran multikolinieritas yang digunakan untuk mendeteksi, memikirkan, dan / atau mengkomunikasikan multikolinieritas. Beberapa rekomendasi umum adalah:
- The multiple untuk variabel tertentu
- Toleransi, , untuk variabel tertentu
- Varians inflasi varians, , untuk variabel tertentu
Jumlah kondisi dari matriks desain secara keseluruhan:
(Ada beberapa opsi lain yang dibahas dalam artikel Wikipedia, dan di sini tentang SO dalam konteks R.)
Fakta bahwa tiga yang pertama adalah fungsi sempurna satu sama lain menunjukkan bahwa satu-satunya keuntungan bersih yang mungkin ada di antara mereka adalah psikologis. Di sisi lain, tiga yang pertama memungkinkan Anda untuk memeriksa variabel secara individual, yang mungkin merupakan keuntungan, tetapi saya telah mendengar bahwa metode angka kondisi dianggap terbaik.
- Apakah ini benar? Terbaik untuk apa?
- Apakah nomor kondisi fungsi sempurna dari ? (Saya pikir itu akan terjadi.)
- Apakah orang menemukan bahwa salah satu dari mereka paling mudah untuk dijelaskan? (Saya tidak pernah mencoba menjelaskan angka-angka ini di luar kelas, saya hanya memberikan uraian multikolinearitas yang longgar dan kualitatif.)
sumber
Jawaban:
Kembali pada akhir 1990-an, saya melakukan disertasi tentang collinearity.
Kesimpulan saya adalah bahwa indeks kondisi adalah yang terbaik.
Alasan utama adalah bahwa, alih-alih melihat variabel individual , ini memungkinkan Anda melihat set variabel. Karena collinearity adalah fungsi dari set variabel, ini adalah hal yang baik.
Juga, hasil studi Monte Carlo saya menunjukkan sensitivitas yang lebih baik terhadap kolinearitas bermasalah, tetapi saya sudah lama melupakan detailnya.
Untuk lebih banyak tentang ini, lihat buku-buku oleh David Belsley. Atau, jika Anda benar-benar menginginkannya, Anda bisa mendapatkan disertasi saya Multicollinearity diagnostik untuk regresi berganda: Studi Monte Carlo
sumber