Korelasi apa yang menjadikan matriks singular dan apa implikasi singularitas atau hampir singularitas?

66

Saya melakukan beberapa perhitungan pada matriks yang berbeda (terutama dalam regresi logistik) dan saya biasanya mendapatkan kesalahan "Matriks singular", di mana saya harus kembali dan menghapus variabel yang berkorelasi. Pertanyaan saya di sini adalah apa yang Anda anggap sebagai matriks berkorelasi "sangat"? Apakah ada nilai ambang korelasi untuk mewakili kata ini? Seperti jika variabel berkorelasi 0,97 dengan yang lain, apakah ini "tinggi" cukup untuk membuat matriks tunggal?

Permintaan maaf jika pertanyaannya sangat mendasar, saya tidak dapat menemukan referensi yang membicarakan masalah ini (petunjuk terhadap referensi apa pun akan menjadi nilai tambah yang besar!).

Kesalahan 404
sumber
2
Kiat: cari situs kami untuk VIF dan korelasi .
whuber
Pasti akan melihatnya. Tepuk tangan.
Kesalahan404
2
@ttnphns telah memberikan penjelasan yang luar biasa di bawah ini (tidak mengherankan, sepertinya ini spesialisasinya). Untuk contoh sederhana dari situasi di mana Anda bisa mendapatkan matriks data tunggal, mungkin membantu untuk membaca jawaban saya di sini: kualitatif-variabel-coding-dalam-regresi-mengarah-ke-singularitas .
gung - Reinstate Monica
Memang benar !! Sebenarnya menyelamatkan saya berjam-jam membaca dengan kebingungan. Terima kasih atas contoh Anda @gung. Itu sangat membantu teman-teman.
Kesalahan404

Jawaban:

100

Apa itu matriks singular?

Matriks kuadrat adalah singular, yaitu determinannya adalah nol, jika mengandung baris atau kolom yang saling terkait secara proporsional; dengan kata lain, satu atau lebih barisnya (kolom) persis dapat diekspresikan sebagai kombinasi linier dari semua atau beberapa baris lainnya (kolom), kombinasi yang tanpa suku konstanta.

3×3Acol3=2.15col1Arow2=1.6row14row3A, matriks juga singular karena setiap kolom kemudian merupakan kombinasi linear dari kolom lainnya. Secara umum, jika ada baris (kolom) dari matriks kuadrat adalah jumlah tertimbang dari baris lain (kolom), maka salah satu dari yang terakhir ini juga merupakan jumlah tertimbang dari baris lain (kolom).

Matriks singular atau hampir singular sering disebut sebagai matriks "dikondisikan" karena memberikan masalah dalam banyak analisis data statistik.

Data apa yang menghasilkan matriks korelasi singular variabel?

Seperti apa data multivariat itu agar korelasinya atau matriks kovariansnya menjadi matriks tunggal yang dijelaskan di atas? Itu adalah ketika ada saling ketergantungan linier antara variabel. Jika beberapa variabel adalah kombinasi linear yang tepat dari variabel lain, dengan istilah konstan diizinkan, matriks korelasi dan kovarian variabel akan tunggal. Ketergantungan yang diamati dalam matriks antara kolom-kolomnya sebenarnya adalah ketergantungan yang sama dengan ketergantungan antara variabel dalam data yang diamati setelah variabel dipusatkan (artinya dibawa ke 0) atau terstandarisasi (jika kita maksudkan korelasi daripada matriks kovarians).

Beberapa situasi tertentu yang sering terjadi ketika matriks korelasi / kovarians variabel adalah tunggal: (1) Jumlah variabel sama atau lebih besar dari jumlah kasus; (2) Dua atau lebih variabel jumlah hingga konstan; (3) Dua variabel identik atau berbeda hanya dalam mean (level) atau varians (skala).

Juga, menduplikasi pengamatan dalam dataset akan mengarahkan matriks menuju singularitas. Semakin sering Anda mengkloning suatu kasus semakin dekat singularitas. Jadi, ketika melakukan semacam imputasi nilai-nilai yang hilang itu selalu bermanfaat (dari kedua tampilan statistik dan matematika) untuk menambahkan beberapa noise ke data yang dimasukkan.

Singularitas sebagai collinearity geometris

Dalam sudut pandang geometris, singularitas adalah (multi) collinearity (atau "complanarity"): variabel yang ditampilkan sebagai vektor (panah) di ruang terletak di ruang dimentionality lebih rendah daripada jumlah variabel - dalam ruang yang dikurangi. (Dimensi itu dikenal sebagai peringkat matriks; sama dengan jumlah nilai eigen non-nol dari matriks.)

Dalam pandangan geometris yang lebih jauh atau "transendental", singularitas atau ketajaman-nol (presensi nilai eigen nol) adalah titik bengkok antara kepastian positif dan kepastian non-positif dari suatu matriks. Ketika beberapa variabel-vektor (yang merupakan matriks korelasi / kovarian) "melampaui" berbaring bahkan di ruang euclidean yang berkurang - sehingga mereka tidak dapat "menyatu" atau "sempurna merentang" ruang euclidean lagi, kepastian non-positif muncul , yaitu beberapa nilai eigen dari matriks korelasi menjadi negatif. (Lihat tentang matriks pasti non-positif, alias non-gram di sini .) Matriks pasti non-positif juga "dikondisikan buruk" untuk beberapa jenis analisis statistik.

Kolinearitas dalam regresi: penjelasan geometris dan implikasi

X1X2YYeYYb1b2

masukkan deskripsi gambar di sini

X1X2Yedari regresi (satu-prediktor) itu, digambarkan pada gambar. Ada juga pendekatan lain, selain menjatuhkan variabel, untuk menghilangkan kolinearitas.

masukkan deskripsi gambar di sini

X1X2

masukkan deskripsi gambar di sini

X1X2X1X1X2begitu banyak berkorelasi kami berharap bidang X sangat berbeda dalam sampel berbeda dari populasi yang sama. Karena bidang X berbeda, prediksi, R-kuadrat, residual, koefisien - semuanya menjadi berbeda juga. Ini terlihat dengan baik pada gambar, di mana pesawat X berayun di suatu tempat 40 derajat. Dalam situasi seperti itu, perkiraan (koefisien, R-kuadrat dll) sangat tidak dapat diandalkan yang mana fakta dinyatakan oleh kesalahan standar besar mereka. Dan sebaliknya, dengan prediktor yang jauh dari collinear, estimasi dapat diandalkan karena ruang yang direntang oleh prediktor kuat terhadap fluktuasi sampel data tersebut.

Collinearity sebagai fungsi dari keseluruhan matriks

Bahkan korelasi yang tinggi antara dua variabel, jika di bawah 1, tidak harus membuat seluruh matriks korelasi tunggal; itu tergantung pada korelasi sisanya juga. Misalnya matriks korelasi ini:

1.000     .990     .200
 .990    1.000     .100
 .200     .100    1.000

memiliki determinan .00950yang belum cukup berbeda dari 0 untuk dianggap memenuhi syarat dalam banyak analisis statistik. Tapi matriks ini:

1.000     .990     .239
 .990    1.000     .100
 .239     .100    1.000

memiliki determinan .00010, tingkat lebih dekat ke 0.

Diagnosis kolinearitas: bacaan lebih lanjut

Analisis data statistik, seperti regresi, memasukkan indeks dan alat khusus untuk mendeteksi kolinearitas yang cukup kuat untuk mempertimbangkan menjatuhkan beberapa variabel atau kasus dari analisis, atau untuk melakukan cara penyembuhan lainnya. Silakan cari (termasuk situs ini) untuk "diagnostik collinearity", "multicollinearity", "singularitas / toleransi collinearity", "indeks kondisi", "proporsi penguraian varian", "variance inflation factors (VIF)".

ttnphns
sumber
3
Terima kasih atas penjelasan terperinci ini. Ini adalah garis besar yang sempurna bagi siapa pun yang mencoba memahami topik ini. Saya akan membaca lebih lanjut tentang judul yang Anda sarankan. Ini sangat dihargai :)
Error404
3
Penjelajahan luar biasa, saya harus berterima kasih lagi untuk penambahan yang Anda buat. Memang sangat informatif.
Kesalahan404
4
Penjelasan geometris & angka terkait sangat membantu untuk memahami masalah ini.
gung - Memulihkan Monica
1
Saya melihat ini adalah posting yang cukup lama ... tapi saya ingin tahu apa yang Anda lakukan dengan grafik geometris dengan @ttnphns ... di satu sisi sepertinya itu mungkin MS Paint, tapi mereka hanya sangat baik
Paul
Apa yang dikatakan @Paul !!!
abalter