Kapan kita dapat berbicara tentang kolinearitas

16

Dalam model linier kita perlu memeriksa apakah ada hubungan antara variabel penjelas. Jika mereka berkorelasi terlalu banyak maka ada collinearity (yaitu, sebagian variabel saling menjelaskan satu sama lain). Saat ini saya hanya melihat korelasi berpasangan antara masing-masing variabel penjelas.

Pertanyaan 1: Apa yang mengklasifikasikan korelasi terlalu banyak? Misalnya, apakah korelasi Pearson 0,5 terlalu banyak?

Pertanyaan 2: Bisakah kita sepenuhnya menentukan apakah ada collinearity antara dua variabel berdasarkan koefisien korelasi atau apakah itu tergantung pada faktor-faktor lain?

Pertanyaan 3: Apakah pemeriksaan grafis dari scatterplot dari dua variabel menambahkan sesuatu ke apa yang ditunjukkan koefisien korelasi?

Stefan
sumber
2
Collinearity (singularity) di antara 3+ variabel tidak hanya berkurang menjadi korelasi berpasangan tinggi. Cari situs untuk pertanyaan yang ditandai "multikolinieritas". Juga, saya sarankan Anda untuk membaca jawaban saya ini: stats.stackexchange.com/a/70910/3277 .
ttnphns

Jawaban:

3

Saya mengambil tiga pertanyaan itu

Pertanyaan 1 Apa yang mengklasifikasikan korelasi terlalu banyak? Misalnya: korelasi pearson 0,5 apakah itu terlalu banyak?

Banyak penulis berpendapat bahwa (multi-) collinearity bukan masalah. Lihatlah di sini dan di sini untuk pendapat yang agak asam tentang masalah ini. Intinya adalah bahwa multikolinearitas tidak berdampak pada pengujian hipotesis selain memiliki ukuran sampel yang lebih rendah (efektif). Akan sulit bagi Anda untuk menafsirkan koefisien regresi jika Anda melakukan regresi, misalnya, tetapi Anda tidak melanggar asumsi dasar jika Anda memilih untuk melakukannya.

Pertanyaan 2 Bisakah kita sepenuhnya menentukan apakah ada collinearity antara dua variabel berdasarkan koefisien korelasi atau apakah itu tergantung pada faktor-faktor lain?

Saya pikir ada beberapa cara untuk mengukur korelasi antara dua variabel, dari menghitung koefisien korelasi Pearson (jika Anda mengasumsikan linearitas, dan tampaknya Anda melakukannya), ke peringkat Spearman , korelasi jarak , dan bahkan melakukan PCA pada dataset Anda. Tetapi saya akan meninggalkan jawaban pertanyaan ini untuk orang yang lebih tahu daripada saya.

Pertanyaan 3 Apakah pemeriksaan grafis dari plot sebaran dari dua variabel menambahkan apa yang ditunjukkan oleh koefisien korelasi?

IMO, jawabannya adalah tidak.

pedrofigueira
sumber
3
IMHO, jawaban untuk (3) sebaliknya ya sangat kuat: sedangkan koefisien korelasi hanya dapat memberikan penilaian numerik tunggal dari linearitas suatu hubungan, pandangan sekilas pada scatterplot akan memberikan banyak informasi tambahan tentang itu hubungan, termasuk perilaku yang tidak diharapkan sebelumnya. Namun, minat nyata pada set pertanyaan ini terletak pada bagaimana menilai hubungan di antara tiga variabel atau lebih (terlepas dari bagaimana (3) sebenarnya diutarakan), dan dalam hal itu bahkan sebar sebaran matriks tidak mengungkapkan semuanya, seperti dicatat oleh @ttnphns.
whuber
1
Sejauh (1), saya membaca referensi Anda (ke blog Dave Gile) secara berbeda: ia berpendapat bahwa pengujian formal multikolinieritas salah arah. Saya tidak melihatnya mengklaim bahwa multikolinieritas bukanlah masalah.
whuber
Pemahaman saya tentang jawaban Dave Gile adalah bahwa satu-satunya cara multikolinieritas berdampak pada hasil akan melalui ukuran sampel yang lebih kecil setara. Jadi sama seperti tidak masuk akal untuk menguji ukuran sampel kecil, tidak masuk akal untuk menguji dampak multikolinieritas. Tapi saya akan senang mendengar pendapat Anda tentang itu, mungkin saya salah paham.
pedrofigueira
Nah, membutuhkan ukuran sampel yang lebih besar bisa berdampak besar bagi sebagian besar penelitian! Efek yang lebih halus dari hampir collinearity menyangkut pembangunan model dan pemilihan variabel, seperti yang dibahas ( antara lain ) di utas seperti stats.stackexchange.com/questions/50537 dan stats.stackexchange.com/a/28476/919 . Tapi mari kita pastikan kita berbicara tentang hal yang sama: Giles mendiskusikan tes formal multikolinieritas, seolah-olah variabel independen diambil secara acak. Di sini perhatiannya tampaknya terfokus pada penggunaan diagnostik multikolinieritas untuk memahami kemampuan dan keterbatasan model.
whuber
1

Cara umum untuk mengevaluasi kolinearitas adalah dengan variance inflation factor (VIFs). Ini dapat dicapai dalam R menggunakan fungsi 'vif' dalam paket 'mobil'. Ini memiliki keunggulan dibandingkan hanya melihat korelasi antara dua variabel, karena secara bersamaan mengevaluasi korelasi antara satu variabel dan variabel lainnya dalam model. Ini kemudian memberi Anda skor tunggal untuk setiap prediktor dalam model.

Sebagaimana dinyatakan di atas tidak ada cutoff yang keras dan cepat, tetapi skor VIF sering dianggap bermasalah setelah mereka berada di antara 5-10. Saya menggunakan aturan praktis khusus bidang ini untuk ini. Juga- tidak ada yang tidak valid tentang penggunaan prediktor berkorelasi (selama mereka tidak berkorelasi sempurna). Anda hanya perlu lebih banyak data untuk memisahkan efek. Ketika Anda tidak memiliki cukup data, akan ada ketidakpastian besar dalam estimasi parameter dari prediktor yang berkorelasi, dan estimasi ini akan sensitif terhadap pengambilan sampel ulang.

Untuk menjawab pertanyaan Anda secara khusus:

  1. Jangan gunakan koefisien korelasi. gunakan VIF model dengan semua prediktor dan tidak ada interaksi. VIF 5-10 menunjukkan terlalu banyak korelasi, cutoff spesifik Anda tergantung pada apa yang perlu Anda lakukan dengan model.

  2. Tergantung pada prediktor lain dalam model, itulah sebabnya mengapa menguntungkan untuk menggunakan VIF.

  3. Nggak! Statistik akan lebih baik mengukur apa yang Anda lihat dengan plot pencar. Kecuali jika ada pelanggaran super terhadap asumsi OLS saat melakukan regresi terhadap prediktor Anda satu sama lain.

colin
sumber