Apakah Faktor Penentu Kovarian dan Matriks Korelasi dan / atau Kebalikannya Memiliki Interpretasi yang Bermanfaat?

9

Sambil belajar menghitung kovarian dan matriks korelasi dan inversinya dalam VB dan T-SQL beberapa tahun yang lalu, saya belajar bahwa berbagai entri memiliki sifat menarik yang dapat membuatnya berguna dalam skenario penambangan data yang tepat. Salah satu contoh yang jelas adalah adanya varian pada diagonal matriks kovarians; beberapa contoh yang kurang jelas yang belum saya gunakan, tetapi bisa berguna di beberapa titik, adalah varians faktor inflasi dalam matriks korelasi terbalik dan korelasi parsial dalam matriks kovarians terbalik.

Satu hal yang belum saya lihat secara langsung dibahas dalam literatur, bagaimanapun, adalah bagaimana menafsirkan faktor-faktor penentu dari matriks ini. Karena faktor penentu sering dihitung untuk jenis matriks lainnya, saya berharap menemukan banyak informasi tentangnya, tetapi saya hanya sedikit sekali muncul dalam pencarian biasa di forum StackExchange dan seluruh Internet. Sebagian besar penyebutan yang saya temui berputar di sekitar menggunakan determinan sebagai langkah tunggal dalam proses menghitung tes statistik dan algoritma lainnya, seperti Analisis Komponen Komponen (PCA) dan salah satu tes Hotelling; tidak ada yang secara langsung membahas bagaimana menafsirkan penentu ini, sendiri. Apakah ada alasan praktis mengapa mereka tidak sering dibahas dalam literatur tentang data mining? Lebih penting, apakah mereka memberikan informasi yang berguna dengan cara yang berdiri sendiri dan jika demikian, bagaimana saya bisa menginterpretasikan masing-masing faktor penentu? Saya menyadari bahwa determinan adalah jenis volume yang ditandatangani yang diinduksi oleh transformasi linier, jadi saya curiga bahwa determinan-determinan dari determinan-determinan khusus ini mungkin menandakan semacam ukuran volumetrik kovarians atau korelasi dll. Pada seluruh rangkaian, atau sesuatu yang berpengaruh ( sebagai lawan dari kovarians dan korelasi biasa, yang berada di antara dua atribut atau variabel). Itu juga menimbulkan pertanyaan tentang volume apa yang akan diwakili oleh invers mereka. Saya tidak cukup akrab dengan topik atau matematika matriks berat yang terlibat untuk berspekulasi lebih lanjut, tetapi saya mampu mengkodekan keempat jenis matriks dan penentu mereka. Pertanyaan saya tidak mendesak, tetapi dalam jangka panjang saya harus membuat keputusan apakah perlu memasukkan matriks-matriks ini dan faktor-faktor penentu mereka secara teratur dalam proses penambangan data eksplorasi saya atau tidak. Lebih murah untuk hanya menghitung kovarians dan korelasi dalam satu-satu, cara bivariat dalam bahasa-bahasa khusus ini, tetapi saya akan bekerja lebih keras dan menerapkan perhitungan penentu jika saya dapat memperoleh beberapa wawasan yang lebih dalam yang membenarkan biaya dalam hal sumber daya pemrograman. Terima kasih sebelumnya. Saya akan bekerja lebih keras dan menerapkan perhitungan penentu jika saya bisa mendapatkan beberapa wawasan yang lebih dalam yang membenarkan biaya dalam hal sumber daya pemrograman. Terima kasih sebelumnya. Saya akan bekerja lebih keras dan menerapkan perhitungan penentu jika saya bisa mendapatkan beberapa wawasan yang lebih dalam yang membenarkan biaya dalam hal sumber daya pemrograman. Terima kasih sebelumnya.

SQLServerSteve
sumber
apa yang Anda pahami dengan kovarians atau korelasi biasa?
Subhash C. Davar

Jawaban:

10

Saya dapat menyatukan beberapa prinsip umum, menggunakan case dan properti dari matriks ini dari serangkaian sumber yang acak-acakan; beberapa dari mereka membahas topik ini secara langsung, dengan sebagian besar hanya disebutkan secara sepintas. Karena determinan mewakili volume yang ditandatangani, saya berharap yang berkaitan dengan empat jenis matriks ini akan diterjemahkan ke dalam beberapa ukuran asosiasi multidimensi; ini ternyata benar sampai batas tertentu, tetapi beberapa dari mereka menunjukkan sifat yang menarik:

Matriks Kovarian:

• Dalam kasus distribusi Gaussian, penentu secara tidak langsung mengukur entropi diferensial, yang dapat ditafsirkan sebagai dispersi titik data di seluruh volume matriks. Lihat jawaban tmp di Apa yang Penentu dari Covariance Matrix berikan ? untuk detail.

• Jawaban Alexander Vigodner di utas yang sama mengatakan bahwa ia juga memiliki sifat positif.

• Penentu matriks kovarians dapat diartikan sebagai varian umum. Lihat Buku Pegangan Statistik NIST halaman 6.5.3.2. Penentu dan Struktur Eigen .

Matriks Kovarian Terbalik:

• Ini setara dengan kebalikan dari varians umum yang diwakili oleh determinan matriks kovarians; Memaksimalkan determinan matriks kovarians terbalik ternyata dapat digunakan sebagai pengganti untuk menghitung determinan matriks informasi Fisher, yang dapat digunakan dalam mengoptimalkan desain eksperimen. Lihat jawaban kjetil b halvorsen untuk thread CV Determinant of Fisher Information

Matriks korelasi:

• Ini jauh lebih menarik daripada determinan matriks kovarian, dalam hal volume korelasi menurun ketika determinan mendekati 1 dan meningkat ketika mendekati akhir 0. Ini adalah kebalikan dari koefisien korelasi biasa, di mana angka yang lebih tinggi menunjukkan korelasi positif yang lebih besar. "Penentu matriks korelasi akan sama dengan 1,0 hanya jika semua korelasi sama dengan 0, jika tidak, determinannya akan kurang dari 1. Ingat bahwa determinan tersebut terkait dengan volume ruang yang ditempati oleh segerombolan titik data yang diwakili oleh skor standar pada langkah-langkah yang terlibat. Ketika langkah-langkah tidak berkorelasi, ruang ini adalah bola dengan volume 1. Ketika langkah-langkah berkorelasi, ruang yang ditempati menjadi ellipsoid yang volumenya kurang dari 1. " Lihatset catatan kursus Tulane dan halaman Quora ini .

• Kutipan lain untuk perilaku tak terduga ini: "Penentu matriks korelasi menjadi nol atau mendekati nol ketika beberapa variabel berkorelasi sempurna atau sangat berkorelasi satu sama lain." Lihat pertanyaan Rakesh Pandey Bagaimana menangani masalah determinan mendekati nol dalam keandalan komputasi menggunakan SPSS?

• Referensi ketiga: "Memiliki det yang sangat kecil (R) hanya berarti bahwa Anda memiliki beberapa variabel yang hampir secara linear bergantung." Jawaban Carlos Massera Filho di utas CrossValidated ini.

• Penentu juga mengikuti skala dari 0 hingga 1, yang berbeda baik dari skala -1 hingga 1 yang diikuti oleh koefisien korelasi. Mereka juga tidak memiliki tanda bahwa penentu biasa dapat menunjukkan dalam mengekspresikan orientasi volume. Apakah penentu korelasi masih mewakili beberapa gagasan directionality tidak dibahas dalam literatur yang saya temukan.

Matriks Korelasi terbalik:

• Pencarian Google untuk istilah gabungan "matriks korelasi terbalik" dan "penentu" hanya menghasilkan 50 hit, jadi tampaknya mereka tidak umum diterapkan pada penalaran statistik.

• Rupanya minimalisasi penentu korelasi terbalik dapat berguna dalam beberapa situasi, mengingat bahwa ada paten untuk pembatalan gema menggunakan filter adaptif berisi prosedur regularisasi yang dirancang untuk melakukan hal itu. Lihat hal. 5 dalam dokumen paten ini .

• hal. 5 dari Robust Technology dengan Analisis Interferensi dalam Pemrosesan Sinyal (tersedia di preview Google Books) oleh Telman Aliev tampaknya menunjukkan bahwa "penetapan yang buruk" dari matriks korelasi terkait dengan ketidakstabilan dalam determinan matriks korelasi terbalik. Dengan kata lain, perubahan liar pada determinannya sebanding dengan perubahan kecil pada elemen-elemen penyusunnya terkait dengan seberapa banyak informasi ditangkap oleh matriks korelasi.

Mungkin ada properti lain dan kasus penggunaan dari penentu ini yang tidak tercantum di sini; Saya hanya akan memposting ini demi kelengkapan dan untuk memberikan jawaban atas pertanyaan yang saya ajukan, kalau-kalau ada orang lain yang menggunakan praktis untuk interpretasi ini (seperti yang saya miliki dengan determinan korelasi).

SQLServerSteve
sumber
Saya akan menunggu lebih lama sebelum menerima jawaban saya sendiri, dengan harapan seseorang yang lebih berkualitas akan datang dan memberikan jawaban yang lebih baik.
SQLServerSteve
3
Jawaban bagus! Saya akan menambahkan bahwa deteminan dapat digunakan dalam "prior diversity", yaitu untuk mendorong model variabel laten agar tidak runtuh ke optima lokal yang buruk di mana beberapa variabel laten identik. Sebagai contoh: papers.nips.cc/paper/…
eric_kernfeld
Terima kasih :) Mungkin saya harus menambahkan komentar Anda pada jawabannya (dengan kredit tentunya) setelah saya membaca makalah itu? Saya tidak menyukai prior Bayesian, jadi mungkin perlu waktu bagi saya untuk mencernanya.
SQLServerSteve
Saya menerima jawaban saya sendiri, tetapi tidak akan menerimanya jika jawaban yang lebih baik diposting. Saya masih ingin lebih banyak masukan tentang interpretasi ini.
SQLServerSteve