Apa manfaat dari berbagai pendekatan untuk mendeteksi collinearity?

11

Saya ingin mendeteksi apakah collinearity merupakan masalah dalam regresi OLS saya. Saya memahami bahwa varians faktor inflasi dan indeks kondisi adalah dua ukuran yang umum digunakan, tetapi saya merasa kesulitan untuk menemukan sesuatu yang pasti pada manfaat dari setiap pendekatan, atau berapa skor yang seharusnya.

Sumber terkemuka yang menunjukkan pendekatan apa yang harus dilakukan, dan / atau skor apa yang sesuai akan sangat berguna.

Pertanyaan serupa diajukan di "Apakah ada alasan untuk memilih ukuran multikolinearitas tertentu?" tapi saya idealnya setelah referensi yang bisa saya kutip.

Kyrenia
sumber
4
Ingat bahwa collinearity adalah masalah derajat , jadi meskipun Anda menemukan teks yang memberikan angka yang bagus dan mudah dicoba, itu bukan sesuatu yang harus Anda perlakukan sebagai nilai cut-off yang sulit untuk "no problem" vs "kami memiliki masalah ".
Silverfish
4
@Silverfish memberikan saran yang bagus. Belsley, Kuh dan Welsch juga menekankan bahwa collinearity, bahkan ketika ada, belum tentu berbahaya: Anda harus menentukan apakah itu sebenarnya menyebabkan masalah bagi analisis Anda.
whuber

Jawaban:

11

Belsley, Kuh, dan Welsch adalah yang teks untuk pergi ke untuk pertanyaan semacam ini. Mereka termasuk diskusi ekstensif tentang diagnostik yang lebih tua di bagian berjudul "Perspektif Historis". Mengenai VIF yang mereka tulis

... Jika kita mengasumsikan data telah terpusat dan ditingkatkan untuk memiliki satuan panjang, korelasi matriks hanya . ...R X XXRXX

Kami sedang mempertimbangkan . Elemen-elemen diagonal , , sering disebut variance inflation factor, , dan nilai diagnostiknya mengikuti dari relasi mana adalah koefisien korelasi berganda pada variabel penjelas yang tersisa. Jelas VIF tinggi menunjukkan mendekati kesatuan, dan karenanya menunjuk ke collinearity. Oleh karena itu ukuran ini beberapa digunakan sebagai indikasi keseluruhan collinearity. Kelemahannya, seperti R - 1 r i i VIF i VIF i = 1R1=(XX)1R1riiVIFi R 2 i XiR 2 i R

VIFi=11Ri2
Ri2XiRi2R, terletak pada ketidakmampuannya untuk membedakan antara beberapa dependensi yang hidup berdampingan dan tidak adanya batas yang berarti untuk membedakan antara nilai-nilai VIF yang dapat dianggap tinggi dan yang dapat dianggap rendah.

Di tempat menganalisis (atau ), BKW mengusulkan hati-hati, pemeriksaan dikendalikan dari Dekomposisi Nilai Singular dari . Mereka memotivasi itu dengan menunjukkan bahwa rasio terbesar dengan nilai-nilai singular terkecil adalah jumlah kondisi dari dan menunjukkan bagaimana jumlah kondisi menyediakan (pada waktu ketat) batas pada penyebaran komputasi kesalahan dalam perhitungan perkiraan regresi. Mereka melanjutkan untuk mencoba dekomposisi perkiraan varians dari estimasi parameter menjadi komponen yang terkait dengan nilai singular. Kekuatan dekomposisi ini terletak pada kemampuannya (dalam banyak kasus) untuk mengungkapkan sifatnyaR - 1 X X β iRR1XXβ^i dari collinearity, bukan hanya menunjukkan keberadaannya.

Siapa pun yang telah membangun model regresi dengan ratusan variabel akan menghargai fitur ini! Adalah satu hal bagi perangkat lunak untuk mengatakan "data Anda adalah garis lurus, saya tidak dapat melanjutkan" atau bahkan untuk mengatakan "data Anda berbentuk garis lurus, saya membuang variabel berikut." Sama sekali merupakan hal yang jauh lebih berguna untuk dapat mengatakan "kelompok variabel menyebabkan ketidakstabilan dalam perhitungan: lihat variabel mana yang dapat Anda lakukan tanpa atau pertimbangkan melakukan analisis komponen utama untuk mengurangi jumlah mereka. "Xi1,,Xik

Pada akhirnya, BKW merekomendasikan mendiagnosis kolinearitas dengan cara

... kondisi ganda berikut:

  1. Nilai tunggal dinilai memiliki indeks kondisi tinggi, dan yang terkait dengan
  2. Proporsi dekomposisi varians tinggi untuk dua atau lebih estimasi koefisien koefisien regresi.

Jumlah indeks kondisi yang dianggap besar (katakanlah, lebih besar dari ) dalam (1) mengidentifikasi jumlah ketergantungan dekat di antara kolom-kolom matriks data , dan besarnya indeks kondisi tinggi ini memberikan ukuran keketatan relatif mereka. " Lebih lanjut, penentuan dalam (2) proporsi besar-dekomposisi proporsi (katakanlah, lebih besar dari ) yang terkait dengan setiap indeks kondisi tinggi mengidentifikasi varian-varian yang terlibat dalam dependensi terdekat yang sesuai, dan besarnya proporsi ini dalam hubungannya dengan tinggi indeks kondisi memberikan ukuran sejauh mana estimasi regresi yang sesuai telah diturunkan oleh adanya kolinearitas.X 0,530X0.5

whuber
sumber
10
  • Variance Inflation Factors (VIFs) mudah dipahami. Regress masing-masing kolom matriks desain Anda pada semua yang lain, perhatikan dari model ini, hitung , dan begitulah. VIF 10 berarti bahwa Anda dapat menjelaskan 90% dari varian satu prediktor menggunakan semua regresi lainnya. Ini biasanya digunakan sebagai ambang batas aturan untuk collinearity.R21/(1R2)

    Namun, VIF yang biasanya diterapkan tidak dapat memberi tahu Anda tentang kolinearitas dengan intersep, karena intersep biasanya secara diam-diam dimasukkan dalam regresi "pembantu" ini. Selain itu, jika seorang regressor memiliki VIF yang tinggi, Anda tidak segera tahu mana regressor lain yang bertanggung jawab atas collinearity. Anda harus melihat koefisien terstandarisasi dalam regresi pembantu.

  • Indeks kondisi dan proporsi dekomposisi kolinearitas dari Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE Regresi Diagnostik: Mengidentifikasi Data Berpengaruh dan Sumber Collinearity. John Wiley & Sons, 1980) jauh lebih sulit untuk dipahami. Saya dulu bekerja dengan ini beberapa tahun yang lalu, tapi saya tidak akan mencoba menjelaskannya di sini tanpa mendapatkan penyegaran ;-)

    Diagnostik ini memungkinkan mendeteksi kolinearitas dengan intersep. Dan Anda dapat menyelidiki proporsi dekomposisi collinearity untuk menyimpulkan mana regresi lain yang bertanggung jawab untuk satu yang diberikan collinearity regressor.

Stephan Kolassa
sumber
Terima kasih - sangat berguna - apakah Anda secara kebetulan mengetahui kutipan untuk VIF lebih dari 10 aturan praktis ... Saya dapat menemukan banyak catatan ekon-kuliah, tetapi tidak dapat menemukan apa pun yang diterbitkan yang mengatakan bahwa .. .
kyrenia
@kyrenia "lebih besar dari 10" jauh dari satu-satunya ambang batas yang saya lihat disarankan! Saya bertanya-tanya apakah ada variasi antar bidang, atau hanya antara penulis.
Silverfish
3
2100
@whuber Terima kasih untuk itu. Itu adalah pengamatan yang sangat menarik dan sangat relevan dengan pertanyaan yang diajukan oleh OP: mengingat pentingnya "peringkat kedua" dari komentar dalam sistem StackExchange, saya pikir Anda harus mempertimbangkan memasukkannya ke dalam jawaban Anda yang luar biasa.
Silverfish
6

Untuk referensi yang tersedia secara luas untuk dikutip, buku Faraway pada halaman 117 memberikan aturan praktis di atas 30 untuk mendeteksi masalah berdasarkan nomor kondisi, dan Pengantar Pembelajaran Statistik , halaman 101, mengatakan bahwa nilai VIF di atas 5 atau 10 menunjukkan masalah .

Mungkin lebih penting daripada metode mana yang Anda gunakan untuk mengidentifikasi multikolinieritas akan menjadi cara Anda menghadapinya.

EdM
sumber