Saya melakukan beberapa perhitungan pada matriks yang berbeda (terutama dalam regresi logistik) dan saya biasanya mendapatkan kesalahan "Matriks singular", di mana saya harus kembali dan menghapus variabel yang berkorelasi. Pertanyaan saya di sini adalah apa yang Anda anggap sebagai matriks berkorelasi "sangat"? Apakah ada nilai ambang korelasi untuk mewakili kata ini? Seperti jika variabel berkorelasi 0,97 dengan yang lain, apakah ini "tinggi" cukup untuk membuat matriks tunggal?
Permintaan maaf jika pertanyaannya sangat mendasar, saya tidak dapat menemukan referensi yang membicarakan masalah ini (petunjuk terhadap referensi apa pun akan menjadi nilai tambah yang besar!).
regression
correlation
matrix
multicollinearity
singular
Kesalahan 404
sumber
sumber
Jawaban:
Apa itu matriks singular?
Matriks kuadrat adalah singular, yaitu determinannya adalah nol, jika mengandung baris atau kolom yang saling terkait secara proporsional; dengan kata lain, satu atau lebih barisnya (kolom) persis dapat diekspresikan sebagai kombinasi linier dari semua atau beberapa baris lainnya (kolom), kombinasi yang tanpa suku konstanta.
Matriks singular atau hampir singular sering disebut sebagai matriks "dikondisikan" karena memberikan masalah dalam banyak analisis data statistik.
Data apa yang menghasilkan matriks korelasi singular variabel?
Seperti apa data multivariat itu agar korelasinya atau matriks kovariansnya menjadi matriks tunggal yang dijelaskan di atas? Itu adalah ketika ada saling ketergantungan linier antara variabel. Jika beberapa variabel adalah kombinasi linear yang tepat dari variabel lain, dengan istilah konstan diizinkan, matriks korelasi dan kovarian variabel akan tunggal. Ketergantungan yang diamati dalam matriks antara kolom-kolomnya sebenarnya adalah ketergantungan yang sama dengan ketergantungan antara variabel dalam data yang diamati setelah variabel dipusatkan (artinya dibawa ke 0) atau terstandarisasi (jika kita maksudkan korelasi daripada matriks kovarians).
Beberapa situasi tertentu yang sering terjadi ketika matriks korelasi / kovarians variabel adalah tunggal: (1) Jumlah variabel sama atau lebih besar dari jumlah kasus; (2) Dua atau lebih variabel jumlah hingga konstan; (3) Dua variabel identik atau berbeda hanya dalam mean (level) atau varians (skala).
Juga, menduplikasi pengamatan dalam dataset akan mengarahkan matriks menuju singularitas. Semakin sering Anda mengkloning suatu kasus semakin dekat singularitas. Jadi, ketika melakukan semacam imputasi nilai-nilai yang hilang itu selalu bermanfaat (dari kedua tampilan statistik dan matematika) untuk menambahkan beberapa noise ke data yang dimasukkan.
Singularitas sebagai collinearity geometris
Dalam sudut pandang geometris, singularitas adalah (multi) collinearity (atau "complanarity"): variabel yang ditampilkan sebagai vektor (panah) di ruang terletak di ruang dimentionality lebih rendah daripada jumlah variabel - dalam ruang yang dikurangi. (Dimensi itu dikenal sebagai peringkat matriks; sama dengan jumlah nilai eigen non-nol dari matriks.)
Dalam pandangan geometris yang lebih jauh atau "transendental", singularitas atau ketajaman-nol (presensi nilai eigen nol) adalah titik bengkok antara kepastian positif dan kepastian non-positif dari suatu matriks. Ketika beberapa variabel-vektor (yang merupakan matriks korelasi / kovarian) "melampaui" berbaring bahkan di ruang euclidean yang berkurang - sehingga mereka tidak dapat "menyatu" atau "sempurna merentang" ruang euclidean lagi, kepastian non-positif muncul , yaitu beberapa nilai eigen dari matriks korelasi menjadi negatif. (Lihat tentang matriks pasti non-positif, alias non-gram di sini .) Matriks pasti non-positif juga "dikondisikan buruk" untuk beberapa jenis analisis statistik.
Kolinearitas dalam regresi: penjelasan geometris dan implikasi
Collinearity sebagai fungsi dari keseluruhan matriks
Bahkan korelasi yang tinggi antara dua variabel, jika di bawah 1, tidak harus membuat seluruh matriks korelasi tunggal; itu tergantung pada korelasi sisanya juga. Misalnya matriks korelasi ini:
memiliki determinan
.00950
yang belum cukup berbeda dari 0 untuk dianggap memenuhi syarat dalam banyak analisis statistik. Tapi matriks ini:memiliki determinan
.00010
, tingkat lebih dekat ke 0.Diagnosis kolinearitas: bacaan lebih lanjut
Analisis data statistik, seperti regresi, memasukkan indeks dan alat khusus untuk mendeteksi kolinearitas yang cukup kuat untuk mempertimbangkan menjatuhkan beberapa variabel atau kasus dari analisis, atau untuk melakukan cara penyembuhan lainnya. Silakan cari (termasuk situs ini) untuk "diagnostik collinearity", "multicollinearity", "singularitas / toleransi collinearity", "indeks kondisi", "proporsi penguraian varian", "variance inflation factors (VIF)".
sumber