Independensi linier vs independensi statistik (PCA dan ICA)

8

Saya membaca makalah yang menarik ini tentang penerapan ICA untuk data ekspresi gen.

Penulis menulis:

[T] di sini tidak ada persyaratan untuk komponen PCA harus independen secara statistik.

Itu benar, tetapi PC itu ortogonal, bukan?

Saya agak tidak jelas tentang apa hubungan antara kecenderungan statistik dan ortogonalitas atau independensi linear.

Perlu dicatat bahwa sementara ICA juga menyediakan dekomposisi linear dari matriks data, persyaratan independensi statistik menyiratkan bahwa matriks kovarians data didekorasi dengan cara yang tidak linier, berbeda dengan PCA di mana dekorelasi dilakukan secara linear.

Saya tidak mengerti itu. Bagaimana kurangnya linearitas mengikuti dari independensi statistik?

Pertanyaan: bagaimana independensi statistik komponen dalam ICA berhubungan dengan independensi linear komponen dalam PCA?

Januari
sumber

Jawaban:

10

Ini mungkin merupakan duplikat dari beberapa pertanyaan lama, tetapi saya akan menjawabnya secara singkat.

Untuk penjelasan non-teknis, saya menemukan angka ini cukup membantu dari artikel Wikipedia tentang Korelasi dan ketergantungan :

masukkan deskripsi gambar di sini

Angka-angka di atas setiap plot sebaran menunjukkan koefisien korelasi antara X dan Y. Lihat baris terakhir: pada setiap plot sebaran korelasinya nol, yaitu X dan Y adalah "bebas linear". Namun mereka jelas tidak independen secara statistik: jika Anda tahu nilai X, Anda dapat mempersempit nilai yang mungkin dari Y. Jika X dan Y independen, itu berarti mengetahui bahwa X tidak memberi tahu apa - apa tentang Y.

Tujuan ICA adalah mencoba menemukan komponen independen. Di PCA Anda hanya mendapatkan komponen yang tidak berkorelasi ("orthogonal"); korelasi di antara mereka adalah nol tetapi mereka bisa sangat tergantung secara statistik.

amuba
sumber
2
Ah! (palmface) OK, entah bagaimana saya mulai membedah ICA dan akhirnya tidak melihat yang jelas. Terima kasih! Saya menggunakan contoh yang sama ketika menjelaskan masalah yang sama kepada orang lain ...
Januari
1
Kita cenderung "menyamakan" "ortogonalitas" dengan "korelasi nol", tetapi ini benar hanya ketika salah satu variabel yang terlibat memiliki rata-rata nol.
Alecos Papadopoulos
2
@Alecos, itu benar (+1), tetapi analisis seperti PCA atau ICA hampir selalu dilakukan pada variabel terpusat, sehingga perbedaan ini tidak relevan.
amoeba
1
Memang, itulah masalahnya secara umum. Dalam ekonometrik, ortogonalitas sebagian besar didiskusikan sehubungan dengan "istilah kesalahan" dari suatu regresi yang memiliki rata-rata nol, dan karenanya di sini juga, ia cenderung disamakan dengan "kovarians nol". Jadi orang-orang menghadapi bahaya untuk melupakan bahwa secara umum mereka tidak sama, sehingga mereka mungkin salah berasumsi demikian dalam situasi di mana variabel tidak terpusat pada rata-rata mereka.
Alecos Papadopoulos
Saya menemukan sebuah kalimat: "Meskipun tidak berkorelasi, komponen utama dapat sangat bergantung secara statistik". Mengikuti jawaban Anda, apakah masuk akal untuk memahaminya dengan cara berikut: mengetahui apa satu PC itu, kami dapat mengatakan sesuatu tentang PC yang berbeda?
camillejr