Teknik non-ortogonal analog dengan PCA

9

Misalkan saya memiliki dataset titik 2D dan saya ingin mendeteksi arah semua maxima lokal dari varians dalam data, misalnya:

masukkan deskripsi gambar di sini

PCA tidak membantu dalam situasi ini karena merupakan dekomposisi ortogonal dan oleh karena itu tidak dapat mendeteksi kedua garis yang saya indikasikan dengan warna biru, tetapi outputnya mungkin terlihat seperti yang ditunjukkan oleh garis hijau.

Harap rekomendasikan teknik apa pun yang mungkin cocok untuk tujuan ini. Terima kasih.

Ahmed
sumber
Bisakah Anda menyediakan kumpulan data contoh Anda? Saya ingin mencoba sesuatu untuk Anda. Salam, Eric
Eric Melse

Jawaban:

10

Analisis Komponen Independen harus dapat memberikan Anda solusi yang baik. Ini dapat menguraikan komponen non-ortogonal (seperti dalam kasus Anda) dengan mengasumsikan bahwa hasil pengukuran Anda dari campuran variabel independen secara statistik.

Ada banyak tutorial bagus di Internet, dan hening beberapa implementasi yang tersedia secara gratis untuk dicoba (misalnya dalam scikit atau MDP ).

Kapan ICA tidak berfungsi?

Seperti algoritma lainnya, ICA optimal ketika asumsi yang diturunkannya berlaku. Secara konkret,

  1. sumber independen secara statistik
  2. komponen independen adalah non-Gaussian
  3. matriks pencampuran tidak bisa dibalik

ICA mengembalikan estimasi matriks pencampuran dan komponen independen.

Ketika sumber Anda Gaussian maka ICA tidak dapat menemukan komponen. Bayangkan Anda memiliki dua komponen independen, dan , yaitu . Kemudian, x 2 N ( 0 , I ) p ( x 1 , x 2 ) = p ( x 1 ) p ( x 2 ) = 1x1x2N(0,saya)

hal(x1,x2)=hal(x1)hal(x2)=12πexp(-x12+x222)=12πexp-||x||22

dimana. adalah norma dari vektor dua dimensi. Jika mereka dicampur dengan transformasi ortogonal (misalnya rotasi ), kita memiliki,, yang berarti bahwa distribusi probabilitas tidak berubah di bawah rotasi. Oleh karena itu, ICA tidak dapat menemukan matriks pencampuran dari data.||.||R||Rx||=||x||

jpmuc
sumber
Ya, seharusnya ( scikit-learn.org/stable/auto_examples/decomposition/… ), Terima kasih banyak! : D
Ahmed
1
Ini bisa berubah menjadi jawaban yang sangat mendalam jika Anda memberi tahu lebih banyak; khususnya, putuskan untuk membandingkan proposal @ Gottfried (PCA dengan rotasi miring) dengan proposal Anda (ICA), - apa perbedaan dan kekurangan keduanya.
ttnphns
Saya melihat bahwa pertanyaan ini telah dijawab sebagian. Periksa hasil edit menambahkan contoh sederhana yang ICA tidak berlaku.
jpmuc
3

Ada prosedur mirip PCA untuk kasus yang disebut "miring". Dalam stat-software seperti SPSS (dan mungkin juga dalam klon freeware-nya) PSPP orang menemukan yang setara disebut "rotasi miring", dan contoh dari mereka bernama "oblimin", "promax" dan sesuatu yang lebih. Jika saya memahami hal-hal dengan benar, perangkat lunak ini mencoba untuk "meluruskan" pemuatan faktor dengan menghitung ulang koordinatnya dalam ruang ortogonal, euclidean (seperti misalnya yang ditunjukkan pada gambar Anda) menjadi koordinat ruang yang kapaknya non-ortogonal mungkin dengan beberapa teknik diketahui dari regresi berganda. Selain itu saya pikir ini hanya berfungsi berulang dan mengkonsumsi satu atau lebih derajat kebebasan dalam pengujian statistik model.

perbandingan PCA dan rotasi miring
Buku pedoman referensi SPSS (di situs IBM) untuk rotasi miring berisi rumus-rumus genap untuk perhitungannya.

[Perbarui] (Upps, maaf, baru saja memeriksa bahwa PSPP tidak menyediakan "rotasi" dari jenis miring)

Gottfried Helms
sumber
1
Hmm, setelah membaca ketiga saya melihat, bahwa pertanyaan Anda sedikit berbeda dari alasan-rotasi-rasional: di cloud data Anda bahkan tidak berarti bahwa pada titik asal / bahwa data bahkan tidak terpusat, sehingga Anda mungkin ada hal lain dalam pikiran daripada yang saya bahas di sini dalam jawaban saya. Jika ini masalahnya, saya dapat menghapus jawabannya nanti ...
Gottfried Helms
1
Karena "rotasi" miring yang terjadi setelah PCA, mereka tidak dapat "melihat" jenis situasi yang diilustrasikan dalam pertanyaan dan karena itu tampaknya tidak memiliki kemampuan lebih untuk mengidentifikasi dua komponen daripada PCA itu sendiri.
whuber
2

Saya tidak punya banyak pengalaman dengan itu, tetapi Vidal, Ma, dan Sastry's Generalized PCA dibuat untuk masalah yang sangat mirip.

Nuh Stein
sumber
2

Jawaban lain telah memberikan beberapa petunjuk berguna tentang teknik yang dapat Anda pertimbangkan, tetapi tampaknya tidak ada yang menunjukkan bahwa asumsi Anda salah: garis yang diperlihatkan dengan warna biru pada gambar skematik Anda BUKAN maksimum lokal dari varian.

wwΣwΣwλ(ww-1)λ

Σw-λw=0.

w

amuba
sumber
Hai, saya tidak memiliki banyak latar belakang matematika, dapatkah Anda merekomendasikan saya sumber yang bagus untuk belajar tentang hal-hal yang Anda sebutkan di atas? Terima kasih.
Ahmed
@Ahmed: Saya tidak yakin, itu tergantung pada apa yang sudah Anda ketahui. Saya kira Anda akan membutuhkan buku teks yang layak tentang aljabar linier dan analisis. Ini adalah hal yang sangat mendasar, harus dicakup dalam buku teks yang layak.
amoeba