Apakah setiap matriks korelasi pasti positif?

11

Saya berbicara di sini tentang matriks korelasi Pearson.

Saya sering mendengarnya mengatakan bahwa semua matriks korelasi harus semidefinit positif. Pemahaman saya adalah bahwa matriks pasti positif harus memiliki nilai eigen , sedangkan matriks semidefinit positif harus memiliki nilai eigen . Ini membuat saya berpikir bahwa pertanyaan saya dapat diulangi sebagai "Apakah mungkin matriks korelasi memiliki nilai eigen ?">00=0

Apakah mungkin untuk matriks korelasi (dihasilkan dari data empiris, tanpa data yang hilang) untuk memiliki nilai eigen , atau nilai eigen ? Bagaimana jika itu adalah matriks korelasi populasi?=0<0

Saya membaca di jawaban atas pertanyaan ini tentang matriks kovarian yang

Mempertimbangkan tiga variabel, , dan . Matriks kovarian mereka, , tidak pasti positif, karena ada vektor ( ) yang tidak positif.XYZ=X+YM.z=(1,1,-1)zM.z

Namun, jika alih-alih matriks kovarians saya melakukan perhitungan pada matriks korelasi maka keluar sebagai positif. Jadi saya pikir mungkin situasinya berbeda untuk matriks korelasi dan kovarian.zM.z

Alasan saya bertanya adalah karena saya ditanyai tentang stackoverflow , sehubungan dengan pertanyaan yang saya ajukan di sana.

user1205901 - Pasang kembali Monica
sumber
Jika, misalnya, dua atribut adalah satu hal, hanya memiliki nama yang berbeda, matriksnya singular. Jika dua atribut menambah konstanta, sekali lagi singular, dan lain-lain .
ttnphns
Jika matriks kovarians adalah matriks korelasi singular adalah singular juga.
ttnphns
2
Hampir duplikat: Apakah setiap matriks korelasi positif semi-pasti? yang kurang fokus pada sudut pasti dan semi-pasti, dan Apakah setiap matriks kovarian positif pasti? yang relevan karena kovarians pada dasarnya adalah korelasi yang diskala ulang.
Silverfish

Jawaban:

16

Matriks korelasi tidak harus pasti positif.

Pertimbangkan skalar variabel acak X yang memiliki varian tidak nol. Kemudian matriks korelasi X dengan dirinya sendiri adalah matriks dari semua yang, yang positif semi-pasti, tetapi tidak pasti positif.

Adapun korelasi sampel, pertimbangkan data sampel untuk di atas, memiliki pengamatan pertama 1 dan 1, dan pengamatan kedua 2 dan 2. Ini menghasilkan korelasi sampel menjadi matriks semua yang ada, jadi tidak pasti positif.

Matriks korelasi sampel, jika dihitung dalam aritmatika yang tepat (yaitu, tanpa kesalahan pembulatan) tidak dapat memiliki nilai eigen negatif.

Mark L. Stone
sumber
4
Mungkin layak menyebutkan efek yang mungkin dari nilai yang hilang pada matriks korelasi sampel . Fuzz numerik bukan satu-satunya alasan untuk mendapatkan nilai eigen negatif dalam matriks korelasi / kovarian sampel.
Silverfish
1
Ya, saya tidak membuatnya secara eksplisit, tetapi saya berasumsi, per pernyataan pertanyaan, "tanpa data yang hilang". Setelah Anda masuk ke dunia liar, aneh data yang hilang dan penyesuaian untuk itu, apa pun bisa terjadi.
Mark L. Stone
Ya, maaf, Anda benar pertanyaan itu mengatakan "tidak ada data yang hilang" - hanya berpikir itu layak disebutkan di suatu tempat karena pencari masa depan mungkin tertarik bahkan jika selera OP terpuaskan!
Silverfish
7

Jawaban oleh @yoki dan @MarkLStone (+1 untuk keduanya) keduanya menunjukkan bahwa matriks korelasi populasi dapat memiliki nol nilai eigen jika variabel terkait linear (seperti misalnya dalam contoh @MarkLStone dan X 1 = 2 X 2 dalam contoh @yoki).X1=X2X1=2X2

Selain itu, matriks korelasi sampel tentu akan memiliki nol nilai eigen jika , yaitu jika ukuran sampel lebih kecil dari jumlah variabel. Dalam hal ini, matriks kovarian dan korelasi keduanya berada pada peringkat paling atas n - 1 , sehingga setidaknya akan ada nilai eigen nol p - n + 1 . Lihat Mengapa matriks kovarians sampel tunggal ketika ukuran sampel kurang dari jumlah variabel? dan Mengapa pangkat matriks kovarians paling banyak n - 1 ?n<haln-1hal-n+1n-1

amuba
sumber
Benar, dat. Saya kira saya bisa dan seharusnya memberikan informasi ini juga, tetapi tujuan saya adalah untuk menghasilkan sampel tandingan untuk membantah hipotesis OP, dengan demikian menunjukkan ketidakabsahannya. Namun, Anda harus menyesuaikan kalimat kedua Anda menjadi "Dalam hal ini kovarians dan matriks korelasi akan berada pada peringkat paling tinggi n − 1, sehingga akan ada setidaknya (p − n + 1) nol nilai eigen. "
Mark L. Stone
4

Anggap sebagai rv dengan mean 0 dan varians dari 1. Misalkan Y = 2 X , dan hitung matriks kovarians dari ( X , Y ) . Karena 2 X = Y , E [ Y 2 ] = 4 E [ X 2 ] = σ 2 Y , dan E [ X Y ] = 2 E [ X 2 ]XY=2X(X,Y)2X=YE[Y2]=4E[X2]=σY2E[XY]=2E[X2]. Karena konfigurasi rata-rata nol, momen kedua sama dengan kovarian yang sesuai, misalnya: .Cov(X,Y)=E[XY]-EXEY=E[XY]

Jadi matriks kovarians akan menjadi: memiliki nilai eigen nol. Matriks korelasi adalah: Λ = ( 1 1 1 1 ) , memiliki nilai eigen nol juga. Karena korespondensi linier antara X dan Y , mudah untuk melihat mengapa kita mendapatkan matriks korelasi ini - diagonal akan selalu 1, dan off-diagonal adalah 1 karena hubungan linear.

Λ=(1224),
Λ=(1111),
XY
yoki
sumber
2ΛcHaiv(X,Y)=E(XY)-E(X)E(Y)=2E[X2]=2(σX2+[E(X)]2)E(X2)=Var(X)+[E(X)]2
dsayaSebuahgΛ-1/2ΛdsayaSebuahgΛ1/2
@AntoniParellada, saya tidak yakin apa yang Anda maksud - kovarians di sini adalah perhitungan langsung. Tapi saya akan mengedit dan membuatnya lebih jelas. Terima kasih.
yoki