VIF, Indeks kondisi dan nilai eigen

15

Saat ini saya menilai multikolinearitas dalam dataset saya.

Nilai ambang VIF dan indeks kondisi apa di bawah / di atas yang menunjukkan masalah?

VIF: Saya telah mendengar bahwa VIF adalah masalah.10

Setelah menghapus dua variabel masalah, VIF adalah untuk setiap variabel. Apakah variabel-variabel tersebut memerlukan lebih banyak perawatan atau apakah VIF ini tampak baik-baik saja?3.96

Indeks Kondisi: Saya telah mendengar bahwa Indeks Kondisi (CI) 30 atau lebih adalah masalah. CI tertinggi saya adalah 16,66. Apakah ini masalah?

Masalah lain:

  • Apakah ada dos / larangan lain yang perlu dipertimbangkan?
  • Apakah ada hal lain yang perlu saya ingat?
ayush biyani
sumber
1
Tolong jelaskan pertanyaannya. Secara khusus, ini adalah beberapa komentar dari sebelumnya: By @chl - "Anda harus mempertimbangkan untuk menulis pertanyaan yang jelas (mereka menarik sendiri), dengan satu masalah definitif, dan cadangan komentar untuk info tambahan yang relevan dengan pertanyaan awal Anda, bukan diikuti- naik". By @shane - "Mengenai pertanyaan saat ini: bisa juga ditingkatkan karena mengajukan banyak pertanyaan berbeda tanpa kesamaan. Apakah Anda tertarik dengan multikolinieritas secara umum? Atau Anda tertarik dengan VIF? Akan lebih baik untuk memecahkannya untuk kejelasan. "

Jawaban:

5

Masalah multikolinieritas dipelajari dengan baik di sebagian besar buku teks ekonometrik. Selain itu ada artikel bagus di wikipedia yang sebenarnya merangkum sebagian besar masalah utama.

Dalam prakteknya orang mulai mengingat masalah multikolinieritas jika hal itu menyebabkan beberapa tanda-tanda visual dari ketidakstabilan parameter (kebanyakan dari mereka tersirat oleh invertabilitas yang tidak (buruk). XTX matriks):

  1. perubahan besar dalam estimasi parameter saat melakukan regresi bergulir atau estimasi pada sub-sampel data yang lebih kecil
  2. rata-rata estimasi parameter, yang terakhir mungkin jatuh menjadi tidak signifikan (oleh t tes) meskipun regresi sampah F Tes menunjukkan signifikansi gabungan yang tinggi dari hasil
  3. Statistik VIF (nilai rata-rata regresi bantu) hanya tergantung pada persyaratan Anda untuk tingkat toleransi, sebagian besar saran praktis menempatkan toleransi yang dapat diterima lebih rendah dari 0,2 atau 0,1 yang berarti bahwa rata-rata yang sesuai dari regresi bantu R2harus lebih tinggi dari 0,9 atau 0,8 untuk mendeteksi masalah. Dengan demikian VIF harus lebih besar dari nilai rule-of-thumb 10 dan 5. Dalam sampel kecil (kurang dari 50 poin) 5 lebih disukai, lebih besar Anda bisa pergi ke nilai yang lebih besar.
  4. Indeks kondisi adalah alternatif untuk VIF dalam kasus Anda, baik VIF maupun CI tidak menunjukkan masalah yang tersisa, sehingga Anda mungkin puas secara statistik pada hasil ini, tetapi ...

mungkin tidak secara teoritis, karena itu mungkin terjadi (dan biasanya demikian) bahwa Anda memerlukan semua variabel untuk hadir dalam model. Mengecualikan variabel yang relevan (masalah variabel yang dihilangkan) akan tetap membuat estimasi parameter yang bias dan tidak konsisten. Di sisi lain Anda mungkin terpaksa memasukkan semua variabel fokus hanya karena analisis Anda didasarkan padanya. Dalam pendekatan penambangan data, Anda lebih teknis dalam mencari yang paling cocok.

Jadi perlu diingat alternatif (yang akan saya gunakan sendiri):

  1. mendapatkan lebih banyak poin data (ingat bahwa persyaratan VIF lebih kecil untuk kumpulan data yang lebih besar dan variabel penjelas jika mereka secara perlahan bervariasi, dapat berubah untuk beberapa poin penting dalam waktu atau penampang)
  2. mencari faktor lattent melalui komponen utama (yang terakhir adalah kombinasi ortogonal sehingga tidak multi-collinear oleh konstruksi, lebih dari melibatkan semua variabel penjelas)
  3. ridge-regression (ini memperkenalkan bias kecil dalam estimasi parameter, tetapi membuatnya sangat stabil)

Beberapa trik lain ada di artikel wiki yang disebutkan di atas.

Dmitrij Celov
sumber
3

Saya percaya Belsely mengatakan bahwa CI lebih dari 10 menunjukkan kemungkinan masalah sedang, sementara lebih dari 30 lebih parah.

Selain itu, Anda harus melihat varians yang dibagikan oleh set variabel dalam indeks kondisi tinggi. Ada perdebatan (atau dulu, saya membaca literatur ini) tentang apakah collinearity yang melibatkan satu variabel dan intersep bermasalah atau tidak, dan apakah pemusatan variabel yang menyinggung menyingkirkan masalah, atau hanya memindahkannya ke tempat lain.

Peter Flom - Pasang kembali Monica
sumber