Jika data 1d, varians menunjukkan sejauh mana titik data berbeda satu sama lain. Jika datanya multidimensi, kita akan mendapatkan matriks kovarians.
Apakah ada ukuran yang memberikan satu angka bagaimana titik data berbeda satu sama lain secara umum untuk data multi-dimensi?
Saya merasa bahwa mungkin sudah ada banyak solusi, tetapi saya tidak yakin istilah yang tepat untuk digunakan untuk mencari mereka.
Mungkin saya bisa melakukan sesuatu seperti menambahkan nilai eigen dari matriks kovarians, apakah itu masuk akal?
variance
covariance
covariance-matrix
dontloo
sumber
sumber
adding up the eigenvalues of the covariance matrix
sama dengan jejak amuba yang disebutkan di atas.Jawaban:
(Jawaban di bawah ini hanya memperkenalkan dan menyatakan teorema yang dibuktikan dalam [0]. Keindahan dalam makalah ini adalah bahwa sebagian besar argumen dibuat dalam bentuk aljabar linier dasar. Untuk menjawab pertanyaan ini cukup untuk menyatakan hasil utama tetapi maksudnya, periksa sumber aslinya).
Dalam situasi apa pun di mana pola multivarian data dapat dijelaskan oleh distribusi elips variate, inferensi statistik akan, menurut definisi, mengurangi masalah pemasangan (dan karakterisasi) vektor lokasi variat k (katakan θ ) dan oleh matriks pasti semi-positif simetris (katakanlah ) ke data. Untuk alasan yang saya jelaskan di bawah ini (tetapi yang sudah Anda anggap sebagai premis), seringkali akan lebih bermakna untuk menguraikan menjadi komponen bentuk (matriks SPSD dengan ukuran yang sama dengank k θ k Σ Σ Σ σ Sk k Σ Σ Σ ) menghitung bentuk kontur kepadatan distribusi multivarian Anda dan skalar menyatakan skala kontur ini.σS
Dalam data univariat ( ), , matriks kovarian data Anda adalah skalar dan, seperti yang akan diikuti dari diskusi di bawah ini, komponen bentuk Σ adalah 1 sehingga sama dengan komponen skalanya selalu dan tidak ada ambiguitas yang mungkin.k=1 Σ Σ = σ SΣ Σ Σ Σ=σS
Dalam data multivarian, banyak pilihan fungsi penskalaan dimungkinkan. Satu khususnya ( ) menonjol karena memiliki kepatutan yang diinginkan. Ini harus menjadikannya pilihan faktor penskalaan dalam konteks keluarga elips.σ S = | ΣσS σS=|ΣΣ|1/k
Banyak masalah dalam statistik MV melibatkan estimasi matriks pencar, yang didefinisikan sebagai fungsi (al) simetris semi positif pasti dalam dan memuaskan:R k × kΣ Rk×k
A b
Di hadapan data terdistribusi elips, di mana semua kontur kerapatan adalah elips yang didefinisikan oleh matriks bentuk yang sama, hingga penggandaan oleh skalar, adalah wajar untuk mempertimbangkan versi normal dari dalam bentuk:Σ
di mana adalah fungsi 1-honogen yang memuaskan:S
untuk semua . Kemudian, disebut komponen bentuk dari matriks pencar (dalam bentuk matriks pendek) dan disebut komponen skala dari matriks pencar. Contoh masalah estimasi multivariat di mana fungsi kerugian hanya bergantung pada melalui komponen bentuknya termasuk tes kebulatan, PCA dan CCA.V S σ S = S 1 / 2 ( Σ ) Σ V Sλ>0 VS σS=S1/2(Σ) Σ VS
Tentu saja, ada banyak fungsi penskalaan yang mungkin jadi ini masih menyisakan pertanyaan apa (jika ada) dari beberapa pilihan fungsi normalisasi dalam beberapa hal optimal. Sebagai contoh:S
Namun, adalah satu-satunya fungsi penskalaan di mana matriks Informasi Fisher untuk estimasi skala dan bentuk yang sesuai, dalam keluarga normal asimptotik, adalah blok diagonal (yaitu komponen skala dan bentuk dari masalah estimasi adalah ortogonal asimptotik) [0 ] Ini berarti, antara lain, bahwa skala fungsional S = | Σ | 1 / k adalah satu-satunya pilihan S yang spesifikasi non σ S tidak menyebabkan hilangnya efisiensi saat melakukan inferensi pada V S .S=|Σ|1/k S=|Σ|1/k S σS VS
Saya tidak tahu adanya karakterisasi optimalitas yang sebanding kuat untuk salah satu dari banyak pilihan yang mungkin memuaskan (1).S
sumber
Varians dari variabel skalar didefinisikan sebagai deviasi kuadrat dari variabel dari rata-rata:
Satu generalisasi ke varian skalar-bernilai untuk variabel acak bernilai vektor dapat diperoleh dengan menafsirkan deviasi sebagai jarak Euclidean :
Ungkapan ini dapat ditulis ulang sebagai
di mana adalah matriks kovarians. Akhirnya, ini dapat disederhanakanC
yang merupakan jejak dari matriks kovarians.
sumber
Meskipun jejak matriks kovarians, tr (C) , memberi Anda ukuran total varians, itu tidak memperhitungkan korelasi antar variabel.
Jika Anda memerlukan ukuran varians keseluruhan yang besar ketika variabel Anda independen satu sama lain dan sangat kecil ketika variabel sangat berkorelasi, Anda dapat menggunakan penentu matriks kovarians, | C | .
Silakan lihat artikel ini untuk klarifikasi yang lebih baik.
sumber
Jika Anda hanya perlu satu angka, maka saya sarankan nilai eigen terbesar dari matriks kovarians. Ini juga merupakan varian yang dijelaskan dari komponen utama pertama dalam PCA. Ini memberi tahu Anda berapa banyak variasi total dapat dijelaskan jika Anda mengurangi dimensi vektor Anda menjadi satu. Lihat jawaban ini pada matematika SE.
Gagasannya adalah Anda memecah vektor menjadi hanya satu dimensi dengan menggabungkan semua variabel secara linear menjadi satu seri. Anda berakhir dengan masalah 1d.
Varians yang dijelaskan dapat dilaporkan dalam% istilah ke total varians. Dalam hal ini Anda akan melihat segera jika ada banyak korelasi linier antara seri. Dalam beberapa aplikasi angka ini bisa 80% dan lebih tinggi, misalnya pemodelan kurva tingkat bunga di bidang keuangan. Ini berarti bahwa Anda dapat membangun kombinasi linier variabel yang menjelaskan 80 varian dari semua variabel.
sumber
The entropy concept from information theory seems to suit the purpose, as a measure of unpredictability of information content, which is given by
If we assume a multivariate Gaussian distribution forp(x) with mean μ and covariance Σ derived from the data, according to wikipedia, the differential entropy is then,
And it depends on the determinant of the covariance matrix, as @user603 suggests.
sumber