Apakah ada alasan untuk memilih ukuran multikolinearitas tertentu?

22

Ketika bekerja dengan banyak variabel input, kita sering khawatir tentang multikolinieritas . Ada sejumlah ukuran multikolinieritas yang digunakan untuk mendeteksi, memikirkan, dan / atau mengkomunikasikan multikolinieritas. Beberapa rekomendasi umum adalah:

  1. The multiple untuk variabel tertentu Rj2
  2. Toleransi, , untuk variabel tertentu 1Rj2
  3. Varians inflasi varians, , untuk variabel tertentu VIF=1tolerance
  4. Jumlah kondisi dari matriks desain secara keseluruhan:

    max(eigenvalue(X'X))min(eigenvalue(X'X))

(Ada beberapa opsi lain yang dibahas dalam artikel Wikipedia, dan di sini tentang SO dalam konteks R.)

Fakta bahwa tiga yang pertama adalah fungsi sempurna satu sama lain menunjukkan bahwa satu-satunya keuntungan bersih yang mungkin ada di antara mereka adalah psikologis. Di sisi lain, tiga yang pertama memungkinkan Anda untuk memeriksa variabel secara individual, yang mungkin merupakan keuntungan, tetapi saya telah mendengar bahwa metode angka kondisi dianggap terbaik.

  • Apakah ini benar? Terbaik untuk apa?
  • Apakah nomor kondisi fungsi sempurna dari ? (Saya pikir itu akan terjadi.) Rj2
  • Apakah orang menemukan bahwa salah satu dari mereka paling mudah untuk dijelaskan? (Saya tidak pernah mencoba menjelaskan angka-angka ini di luar kelas, saya hanya memberikan uraian multikolinearitas yang longgar dan kualitatif.)
gung - Reinstate Monica
sumber
Saya telah memposting pertanyaan tindak lanjut terkait, dengan jawaban untuk melengkapi apa yang sudah ada di sini: stats.stackexchange.com/questions/173665/…
kyrenia

Jawaban:

15

Kembali pada akhir 1990-an, saya melakukan disertasi tentang collinearity.

Kesimpulan saya adalah bahwa indeks kondisi adalah yang terbaik.

Alasan utama adalah bahwa, alih-alih melihat variabel individual , ini memungkinkan Anda melihat set variabel. Karena collinearity adalah fungsi dari set variabel, ini adalah hal yang baik.

Juga, hasil studi Monte Carlo saya menunjukkan sensitivitas yang lebih baik terhadap kolinearitas bermasalah, tetapi saya sudah lama melupakan detailnya.

R2

Untuk lebih banyak tentang ini, lihat buku-buku oleh David Belsley. Atau, jika Anda benar-benar menginginkannya, Anda bisa mendapatkan disertasi saya Multicollinearity diagnostik untuk regresi berganda: Studi Monte Carlo

Peter Flom - Pasang kembali Monica
sumber
1
Jadi, apakah gagasan di sini bahwa dengan melihat VIF, Anda mungkin secara keliru menyimpulkan bahwa multikolinieritas bukanlah masalah, tetapi jika Anda telah melihat nomor kondisinya, Anda akan lebih cenderung menarik kesimpulan yang tepat? Mungkin sesuatu seperti tes dengan kekuatan statistik yang lebih besar?
gung - Reinstate Monica
4
+1. Untungnya, untuk menjelaskan nomor kondisi, kami telah memiliki utas yang luar biasa di situs ini: ini adalah distorsi maksimum yang ditemukan dalam deskripsi urutan kedua dari variabel desain sebagai awan titik. Semakin besar distorsi, semakin banyak poin yang cenderung terletak di dalam subruang. Wawasan geometris ini juga menunjukkan mengapa pengkondisian matriks desain terpusat lebih baik daripada pengkondisian matriks desain itu sendiri.
Whuber
1
Yah, sulit untuk mendefinisikan dengan tepat apa kesimpulan yang "benar" itu; tetapi seharusnya ada hubungannya dengan perubahan kecil dalam data yang menghasilkan perubahan besar dalam output. Seingat saya, indeks kondisi lebih terkait langsung dengan ini. Tetapi yang penting adalah mendapatkan proporsi varians, yang memungkinkan Anda melihat set variabel dan tingkat collinearity mereka. (Tentu saja, semua itu 14 tahun yang lalu .... tapi saya tidak berpikir hal-hal telah berubah. Tindakannya sama. Tetapi ingatan saya mungkin tidak sempurna).
Peter Flom - Reinstate Monica
3
Gung, satu titik kunci di sini adalah bahwa nomor kondisi tidak tergantung pada koordinat: tetap tidak berubah di bawah (ortogonal) rekombinasi linear data. Dengan demikian ia tidak mungkin mengekspresikan apa pun tentang variabel individu tetapi harus menangkap properti dari seluruh koleksi. Dengan menggunakannya sebagian mengisolasi Anda agar tidak disesatkan oleh bagaimana variabel Anda diekspresikan.
Whuber
1
Saya sudah terlalu sibuk untuk menyelesaikan disertasi Anda, tetapi sejauh ini sangat membantu. Terima kasih lagi.
gung - Reinstate Monica