Saat ini saya menilai multikolinearitas dalam dataset saya.
Nilai ambang VIF dan indeks kondisi apa di bawah / di atas yang menunjukkan masalah?
VIF: Saya telah mendengar bahwa VIF adalah masalah.
Setelah menghapus dua variabel masalah, VIF adalah untuk setiap variabel. Apakah variabel-variabel tersebut memerlukan lebih banyak perawatan atau apakah VIF ini tampak baik-baik saja?
Indeks Kondisi: Saya telah mendengar bahwa Indeks Kondisi (CI) 30 atau lebih adalah masalah. CI tertinggi saya adalah 16,66. Apakah ini masalah?
Masalah lain:
- Apakah ada dos / larangan lain yang perlu dipertimbangkan?
- Apakah ada hal lain yang perlu saya ingat?
multiple-regression
linear-model
multicollinearity
vif
ayush biyani
sumber
sumber
Jawaban:
Masalah multikolinieritas dipelajari dengan baik di sebagian besar buku teks ekonometrik. Selain itu ada artikel bagus di wikipedia yang sebenarnya merangkum sebagian besar masalah utama.
Dalam prakteknya orang mulai mengingat masalah multikolinieritas jika hal itu menyebabkan beberapa tanda-tanda visual dari ketidakstabilan parameter (kebanyakan dari mereka tersirat oleh invertabilitas yang tidak (buruk).XTX matriks):
mungkin tidak secara teoritis, karena itu mungkin terjadi (dan biasanya demikian) bahwa Anda memerlukan semua variabel untuk hadir dalam model. Mengecualikan variabel yang relevan (masalah variabel yang dihilangkan) akan tetap membuat estimasi parameter yang bias dan tidak konsisten. Di sisi lain Anda mungkin terpaksa memasukkan semua variabel fokus hanya karena analisis Anda didasarkan padanya. Dalam pendekatan penambangan data, Anda lebih teknis dalam mencari yang paling cocok.
Jadi perlu diingat alternatif (yang akan saya gunakan sendiri):
Beberapa trik lain ada di artikel wiki yang disebutkan di atas.
sumber
Saya percaya Belsely mengatakan bahwa CI lebih dari 10 menunjukkan kemungkinan masalah sedang, sementara lebih dari 30 lebih parah.
Selain itu, Anda harus melihat varians yang dibagikan oleh set variabel dalam indeks kondisi tinggi. Ada perdebatan (atau dulu, saya membaca literatur ini) tentang apakah collinearity yang melibatkan satu variabel dan intersep bermasalah atau tidak, dan apakah pemusatan variabel yang menyinggung menyingkirkan masalah, atau hanya memindahkannya ke tempat lain.
sumber