Apakah komponen PCA dari data Gaussian multivarian secara statistik independen?

16

Apakah komponen PCA (dalam analisis komponen utama) secara statistik independen jika data kami terdistribusi normal multivarian? Jika demikian, bagaimana ini dapat ditunjukkan / dibuktikan?

Saya bertanya karena saya melihat posting ini , di mana jawaban teratas menyatakan:

PCA tidak membuat asumsi Gaussianity eksplisit. Ia menemukan vektor eigen yang memaksimalkan varians yang dijelaskan dalam data. Ortogonalitas dari komponen utama berarti bahwa ia menemukan komponen yang paling tidak berkorelasi untuk menjelaskan sebanyak mungkin variasi dalam data. Untuk distribusi gaussian multivariat, korelasi nol antara komponen menyiratkan independensi yang tidak berlaku untuk sebagian besar distribusi.

Jawabannya dinyatakan tanpa bukti, dan tampaknya menyiratkan bahwa PCA menghasilkan komponen independen jika data multivarian normal.

Secara khusus, katakanlah data kami adalah sampel dari:

xN(μ,Σ)

kami menempatkan n sampel x ke dalam baris matriks sampel X , jadi X adalah n×m . Menghitung hasil SVD dari X (setelah pemusatan)

X=USVT

Dapatkah kita mengatakan bahwa kolom U secara statistik independen, juga maka deretan VT ? Apakah ini benar secara umum, hanya untuk xN(μ,Σ) , atau tidak benar sama sekali?

bill_e
sumber
1
stats.stackexchange.com/q/110508/3277 adalah pertanyaan serupa.
ttnphns
1
Saya tidak melihat bagaimana PC dapat dianggap "independen secara statistik" dalam lebih dari satu dimensi. Bagaimanapun, menurut definisi masing-masing adalah ortogonal bagi yang lain; ketergantungan fungsional ini menciptakan ketergantungan statistik yang sangat kuat.
whuber
1
@amoeba Saya harap saya telah secara konsisten yang jelas serta setia kepada pertanyaan, yang saya temukan untuk menjadi dinyatakan dengan jelas dan tidak ambigu: karena data adalah acak, sehingga semua entri dalam U . Saya telah menerapkan definisi independensi statistik untuk mereka. Itu saja. Masalah Anda tampaknya adalah bahwa Anda menggunakan kata "tidak berkorelasi" dalam dua pengertian yang sangat berbeda tanpa kelihatannya menyadarinya: berdasarkan bagaimana kolom U dibangun, mereka secara geometri ortogonal sebagai vektor dalam R n , tetapi mereka tidak berarti vektor acak independen! XUURn
whuber
1
@amoeba Anda benar - simulasi cukup meyakinkan menunjukkan korelasinya bisa (sangat) nol. Namun, saya tidak membantah bahwa "komponen PCA tidak berkorelasi" dalam arti "korelasi" = "ortogonal," saya juga tidak mengatakan buku teks tertentu salah. Kekhawatiran saya adalah bahwa pernyataan seperti itu, dipahami dengan baik, sangat tidak relevan dengan pertanyaan yang dapat dilakukan (dan telah dilakukan) menabur kebingungan yang luas dalam konteks saat ini.
whuber
1
@whuber, saya yakin Anda telah menantikan edisi lain dari jawaban saya! Ini dia. Saya secara eksplisit mengakui poin Anda tentang ketergantungan, dan membuat pernyataan bahwa kolom-kolom bebas asimptotik , sebagai poin utama saya. Di sini "tanpa gejala" mengacu pada jumlah n dari pengamatan (baris). Saya sangat berharap kami akan dapat menyetujui hal itu! Saya juga berpendapat bahwa untuk n yang masuk akal , seperti n = 100 , ketergantungan antara kolom "praktis tidak relevan". Saya kira ini adalah poin yang lebih kontroversial, tetapi saya mencoba membuatnya cukup tepat dalam jawaban saya. Unnn=100
Amuba kata Reinstate Monica

Jawaban:

23

Saya akan mulai dengan demonstrasi intuitif.

Saya menghasilkan pengamatan (a) dari distribusi 2D yang sangat non-Gaussian, dan (b) dari distribusi 2D Gaussian. Dalam kedua kasus saya memusatkan data dan melakukan dekomposisi nilai singular X = U S V . Kemudian untuk setiap kasus saya membuat plot pencar dari dua kolom pertama U , satu terhadap yang lain. Perhatikan bahwa biasanya kolom U S yang disebut "komponen utama" (PC); kolom U adalah PC yang diskalakan untuk memiliki norma satuan; masih, dalam jawaban ini saya fokus pada kolom U . Berikut adalah plot pencar:n=100X=USVUUSUU

PCA of Gaussian and non-Gaussian data

Saya pikir pernyataan seperti "komponen PCA tidak berkorelasi" atau "komponen PCA tergantung / independen" biasanya dibuat tentang satu matriks sampel spesifik dan merujuk pada korelasi / dependensi lintas baris (lihat misalnya jawaban @ ttnphns di sini ). PCA menghasilkan matriks data transformasi U , di mana baris adalah pengamatan dan kolom adalah variabel PC. Yaitu kita dapat melihat U sebagai sampel , dan bertanya apa korelasi sampel antara variabel PC. Matriks korelasi sampel ini tentu saja diberikan oleh UU = IXUUUU=I, artinya korelasi sampel antara variabel PC adalah nol. Inilah yang orang maksud ketika mereka mengatakan bahwa "PCA mendiagonisasi matriks kovarians", dll.

Kesimpulan 1: dalam koordinat PCA, data apa pun memiliki korelasi nol.

Ini berlaku untuk kedua plot sebar di atas. Namun, segera jelas bahwa dua variabel PC dan y di sebar kiri (non-Gaussian) tidak independen; meskipun mereka memiliki korelasi nol, mereka sangat tergantung dan pada kenyataannya terkait dengan y a ( x - b ) 2 . Dan memang, sudah diketahui umum bahwa tidak berkorelasi bukan berarti mandirixyya(xb)2 .

Sebaliknya, dua variabel PC dan y di sebar kanan (Gaussian) tampaknya "cukup independen". Komputasi informasi timbal balik di antara mereka (yang merupakan ukuran ketergantungan statistik: variabel independen memiliki nol informasi bersama) dengan algoritma standar apa pun akan menghasilkan nilai yang sangat mendekati nol. Tidak akan persis nol, karena tidak pernah benar-benar nol untuk ukuran sampel hingga (kecuali disetel dengan baik); Selain itu, ada berbagai metode untuk menghitung informasi timbal balik dari dua sampel, memberikan jawaban yang sedikit berbeda. Tetapi kita dapat berharap bahwa metode apa pun akan menghasilkan perkiraan informasi timbal balik yang sangat mendekati nol.xy

Kesimpulan 2: dalam koordinat PCA, data Gaussian "cukup independen", yang berarti bahwa estimasi standar ketergantungan akan berada di sekitar nol.

Namun, pertanyaannya lebih rumit, seperti yang ditunjukkan oleh rantai komentar yang panjang. Memang, @whuber dengan tepat menunjukkan bahwa variabel PCA dan y (kolom U ) harus bergantung secara statistik: kolom harus panjang unit dan harus ortogonal, dan ini menimbulkan ketergantungan. Misalnya jika beberapa nilai di kolom pertama sama dengan 1 , maka nilai yang sesuai di kolom kedua harus 0xyU10 .

Ini benar, tetapi praktis hanya relevan untuk sangat kecil , seperti misalnya n = 3 (dengan n = 2 setelah pemusatan hanya ada satu PC). Untuk ukuran sampel yang masuk akal, seperti n = 100 yang ditunjukkan pada gambar saya di atas, efek ketergantungan akan diabaikan; kolom U adalah proyeksi (skala) dari data Gaussian, sehingga mereka juga Gaussian, yang membuatnya hampir mustahil untuk satu nilai mendekati 1 (ini akan membutuhkan semua elemen n - 1 lainnya mendekati 0 , yang hampir tidak distribusi Gaussian).nn=3n=2n=100U1n10

Kesimpulan 3: secara tegas, untuk setiap terbatas , data Gaussian dalam koordinat PCA tergantung; Namun, ketergantungan ini secara praktis tidak relevan untuk setiap n 1 .nn1

Kita dapat membuat ini tepat dengan mempertimbangkan apa yang terjadi dalam batas . Dalam batas ukuran sampel yang tak terbatas, matriks kovarian sampel sama dengan matriks kovarians populasi Σ . Jadi jika data vektor X adalah sampel dari X ~ N ( 0 , Σ ) , maka variabel PC Y = Λ - 1 / 2 V X / ( n - 1 ) (di mana Λ dan VnΣXXN(0,Σ)Y=Λ1/2VX/(n1)ΛVadalah nilai eigen dan vektor eigen dari ) dan YN ( 0 , I / ( n - 1 ) ) . Yaitu variabel PC berasal dari Gaussian multivariat dengan kovarians diagonal. Tetapi setiap Gaussian multivarian dengan matriks kovariansi diagonal terurai menjadi produk Gaussians univariat, dan ini adalah definisi independensi statistik :ΣYN(0,I/(n1))

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

Kesimpulan 4: variabel PC asimtotik ( ) dari data Gaussian secara statistik independen sebagai variabel acak, dan sampel informasi timbal balik akan memberikan nilai populasi nol.n

Saya harus mencatat bahwa dimungkinkan untuk memahami pertanyaan ini secara berbeda (lihat komentar oleh @whuber): untuk mempertimbangkan seluruh matriks variabel acak (diperoleh dari matriks acak X melalui operasi tertentu) dan bertanya apakah ada dua elemen spesifik U i j dan U k l dari dua kolom yang berbeda secara statistik independen di seluruh undian X yang berbeda . Kami menjelajahi pertanyaan ini di utas berikutnya .UXUijUklX


Inilah keempat kesimpulan sementara dari atas:

  • Dalam koordinat PCA, data apa pun memiliki korelasi nol.
  • Dalam koordinat PCA, data Gaussian "cukup independen", yang berarti bahwa perkiraan standar ketergantungan akan berada di sekitar nol.
  • nn1 .
  • n
amuba kata Reinstate Monica
sumber
Anda menulis "Namun, jika data Gaussian multivarian, maka mereka memang independen". 'Mereka' menjadi komponen utama, dan koefisiennya? Apa yang Anda maksud dengan PCA mendiagonalisasi matriks kovarians? Terima kasih atas tanggapan Anda!
bill_e
SUbersifat ortogonal, artinya matriks kovariannya diagonal. Semua itu berarti PC memiliki korelasi nol.
Amuba mengatakan Reinstate Monica
Cool, thank you! The combination of your answer and this comment helps clear things up for me a lot. Can I edit your comment into your answer?
bill_e
I expanded the answer by incorporating the comment; see if you are happy with it now.
amoeba says Reinstate Monica
2
Interesting discussion! When I asked the question, my thought of statistical dependence was "if you know PC1, is it possible infer PC2?, etc." I will look more into independence tests based on mutual information now.
bill_e