Saya berbicara di sini tentang matriks korelasi Pearson.
Saya sering mendengarnya mengatakan bahwa semua matriks korelasi harus semidefinit positif. Pemahaman saya adalah bahwa matriks pasti positif harus memiliki nilai eigen , sedangkan matriks semidefinit positif harus memiliki nilai eigen . Ini membuat saya berpikir bahwa pertanyaan saya dapat diulangi sebagai "Apakah mungkin matriks korelasi memiliki nilai eigen ?"
Apakah mungkin untuk matriks korelasi (dihasilkan dari data empiris, tanpa data yang hilang) untuk memiliki nilai eigen , atau nilai eigen ? Bagaimana jika itu adalah matriks korelasi populasi?
Saya membaca di jawaban atas pertanyaan ini tentang matriks kovarian yang
Mempertimbangkan tiga variabel, , dan . Matriks kovarian mereka, , tidak pasti positif, karena ada vektor ( ) yang tidak positif.
Namun, jika alih-alih matriks kovarians saya melakukan perhitungan pada matriks korelasi maka keluar sebagai positif. Jadi saya pikir mungkin situasinya berbeda untuk matriks korelasi dan kovarian.
Alasan saya bertanya adalah karena saya ditanyai tentang stackoverflow , sehubungan dengan pertanyaan yang saya ajukan di sana.
sumber
Jawaban:
Matriks korelasi tidak harus pasti positif.
Pertimbangkan skalar variabel acak X yang memiliki varian tidak nol. Kemudian matriks korelasi X dengan dirinya sendiri adalah matriks dari semua yang, yang positif semi-pasti, tetapi tidak pasti positif.
Adapun korelasi sampel, pertimbangkan data sampel untuk di atas, memiliki pengamatan pertama 1 dan 1, dan pengamatan kedua 2 dan 2. Ini menghasilkan korelasi sampel menjadi matriks semua yang ada, jadi tidak pasti positif.
Matriks korelasi sampel, jika dihitung dalam aritmatika yang tepat (yaitu, tanpa kesalahan pembulatan) tidak dapat memiliki nilai eigen negatif.
sumber
Jawaban oleh @yoki dan @MarkLStone (+1 untuk keduanya) keduanya menunjukkan bahwa matriks korelasi populasi dapat memiliki nol nilai eigen jika variabel terkait linear (seperti misalnya dalam contoh @MarkLStone dan X 1 = 2 X 2 dalam contoh @yoki).X1=X2 X1=2X2
Selain itu, matriks korelasi sampel tentu akan memiliki nol nilai eigen jika , yaitu jika ukuran sampel lebih kecil dari jumlah variabel. Dalam hal ini, matriks kovarian dan korelasi keduanya berada pada peringkat paling atas n - 1 , sehingga setidaknya akan ada nilai eigen nol p - n + 1 . Lihat Mengapa matriks kovarians sampel tunggal ketika ukuran sampel kurang dari jumlah variabel? dan Mengapa pangkat matriks kovarians paling banyak n - 1 ?n < p n - 1 p - n + 1 n - 1
sumber
Anggap sebagai rv dengan mean 0 dan varians dari 1. Misalkan Y = 2 X , dan hitung matriks kovarians dari ( X , Y ) . Karena 2 X = Y , E [ Y 2 ] = 4 E [ X 2 ] = σ 2 Y , dan E [ X Y ] = 2 E [ X 2 ]X Y= 2 X ( X, Y) 2 X= Y E[ Y2] = 4 E[ X2] = σ2Y E[ XY] = 2 E[ X2] . Karena konfigurasi rata-rata nol, momen kedua sama dengan kovarian yang sesuai, misalnya: .Cov (X, Y) = E[ XY] - EXEY= E[ XY]
Jadi matriks kovarians akan menjadi: memiliki nilai eigen nol. Matriks korelasi adalah: Λ = ( 1 1 1 1 ) , memiliki nilai eigen nol juga. Karena korespondensi linier antara X dan Y , mudah untuk melihat mengapa kita mendapatkan matriks korelasi ini - diagonal akan selalu 1, dan off-diagonal adalah 1 karena hubungan linear.
sumber
2