Dalam model linier kita perlu memeriksa apakah ada hubungan antara variabel penjelas. Jika mereka berkorelasi terlalu banyak maka ada collinearity (yaitu, sebagian variabel saling menjelaskan satu sama lain). Saat ini saya hanya melihat korelasi berpasangan antara masing-masing variabel penjelas.
Pertanyaan 1: Apa yang mengklasifikasikan korelasi terlalu banyak? Misalnya, apakah korelasi Pearson 0,5 terlalu banyak?
Pertanyaan 2: Bisakah kita sepenuhnya menentukan apakah ada collinearity antara dua variabel berdasarkan koefisien korelasi atau apakah itu tergantung pada faktor-faktor lain?
Pertanyaan 3: Apakah pemeriksaan grafis dari scatterplot dari dua variabel menambahkan sesuatu ke apa yang ditunjukkan koefisien korelasi?
Jawaban:
Itu selalu pintar untuk melihat data Anda, dan bukan hanya ringkasan numerik / hasil tes. Referensi kanonik di sini adalah kuartet Anscomb .
sumber
Saya mengambil tiga pertanyaan itu
Banyak penulis berpendapat bahwa (multi-) collinearity bukan masalah. Lihatlah di sini dan di sini untuk pendapat yang agak asam tentang masalah ini. Intinya adalah bahwa multikolinearitas tidak berdampak pada pengujian hipotesis selain memiliki ukuran sampel yang lebih rendah (efektif). Akan sulit bagi Anda untuk menafsirkan koefisien regresi jika Anda melakukan regresi, misalnya, tetapi Anda tidak melanggar asumsi dasar jika Anda memilih untuk melakukannya.
Saya pikir ada beberapa cara untuk mengukur korelasi antara dua variabel, dari menghitung koefisien korelasi Pearson (jika Anda mengasumsikan linearitas, dan tampaknya Anda melakukannya), ke peringkat Spearman , korelasi jarak , dan bahkan melakukan PCA pada dataset Anda. Tetapi saya akan meninggalkan jawaban pertanyaan ini untuk orang yang lebih tahu daripada saya.
IMO, jawabannya adalah tidak.
sumber
Cara umum untuk mengevaluasi kolinearitas adalah dengan variance inflation factor (VIFs). Ini dapat dicapai dalam R menggunakan fungsi 'vif' dalam paket 'mobil'. Ini memiliki keunggulan dibandingkan hanya melihat korelasi antara dua variabel, karena secara bersamaan mengevaluasi korelasi antara satu variabel dan variabel lainnya dalam model. Ini kemudian memberi Anda skor tunggal untuk setiap prediktor dalam model.
Sebagaimana dinyatakan di atas tidak ada cutoff yang keras dan cepat, tetapi skor VIF sering dianggap bermasalah setelah mereka berada di antara 5-10. Saya menggunakan aturan praktis khusus bidang ini untuk ini. Juga- tidak ada yang tidak valid tentang penggunaan prediktor berkorelasi (selama mereka tidak berkorelasi sempurna). Anda hanya perlu lebih banyak data untuk memisahkan efek. Ketika Anda tidak memiliki cukup data, akan ada ketidakpastian besar dalam estimasi parameter dari prediktor yang berkorelasi, dan estimasi ini akan sensitif terhadap pengambilan sampel ulang.
Untuk menjawab pertanyaan Anda secara khusus:
Jangan gunakan koefisien korelasi. gunakan VIF model dengan semua prediktor dan tidak ada interaksi. VIF 5-10 menunjukkan terlalu banyak korelasi, cutoff spesifik Anda tergantung pada apa yang perlu Anda lakukan dengan model.
Tergantung pada prediktor lain dalam model, itulah sebabnya mengapa menguntungkan untuk menggunakan VIF.
Nggak! Statistik akan lebih baik mengukur apa yang Anda lihat dengan plot pencar. Kecuali jika ada pelanggaran super terhadap asumsi OLS saat melakukan regresi terhadap prediktor Anda satu sama lain.
sumber