Bagaimana analisis diskriminan linier mengurangi dimensi?

18

Ada kata-kata dari "Elemen Pembelajaran Statistik" di halaman 91:

Centroid K dalam rentang ruang input p-dimensi paling banyak di subruang dimensi K-1, dan jika p jauh lebih besar dari K, ini akan menjadi penurunan dimensi yang cukup besar.

Saya punya dua pertanyaan:

  1. Mengapa centroid K dalam rentang ruang input p-dimensi paling banyak dari subruang dimensi K-1?
  2. Bagaimana letak K centroid?

Tidak ada penjelasan dalam buku ini dan saya tidak menemukan jawaban dari makalah terkait.

jerry_sjtu
sumber
3
The centroid terletak di paling dimensi affine ruang bagian. Misalnya, dua titik terletak pada garis, subruang dimensi. Ini hanya definisi dari subruang affine dan beberapa aljabar linier elementer. KK-12-1
deinst
Pertanyaan yang sangat mirip: stats.stackexchange.com/q/169436/3277 .
ttnphns

Jawaban:

16

Diskriminan adalah sumbu dan variabel laten yang membedakan kelas dengan paling kuat. Jumlah diskriminan yang mungkin adalah . Sebagai contoh, dengan k = 3 kelas dalam p = 2 dimensi ruang di sana dapat ada paling banyak 2 diskriminan seperti pada grafik di bawah ini. (Perhatikan bahwa diskriminan tidak harus ortogonal sebagai sumbu yang ditarik di ruang asli, meskipun mereka, sebagai variabel, tidak berkorelasi.) Centroid dari kelas-kelas tersebut terletak di dalam subruang diskriminan sesuai dengan koordinat tegak lurusnya terhadap diskriminan.msayan(k-1,hal)

masukkan deskripsi gambar di sini

Aljabar LDA pada fase ekstraksi ada di sini .

ttnphns
sumber
Grafik yang bagus, perangkat lunak / paket apa yang Anda gunakan untuk membuatnya?
Michelle
SPSS. Makro yang ditulis sendiri untuk SPSS.
ttnphns
Apakah ini berarti bahwa Anda tidak akan melihat pemisahan kelas yang baik dalam LDA dengan, katakanlah, tiga kelas dengan tumpang tindih, sampai Anda mengubah skala sumbu ?? Maksudku, saya menjalankan LDA, dan kelas saya terpisah ... tapi mereka tepat di atas satu sama lain di setiap sumbu yang berbeda kecuali yang pertama ... dan yang sangat besar.
Donlan
14

Sementara "Elemen Pembelajaran Statistik" adalah buku yang brilian, ia membutuhkan tingkat pengetahuan yang relatif tinggi untuk mendapatkan yang terbaik darinya. Ada banyak sumber daya lain di web untuk membantu Anda memahami topik dalam buku ini.

Mari kita ambil contoh yang sangat sederhana dari analisis diskriminan linier di mana Anda ingin mengelompokkan satu set titik data dua dimensi ke dalam K = 2 kelompok. Penurunan dimensi hanya akan menjadi K-1 = 2-1 = 1. Seperti yang dijelaskan @deinst, penurunan dimensi dapat dijelaskan dengan geometri elementer.

Dua titik dalam dimensi apa pun dapat digabungkan dengan garis, dan garis adalah satu dimensi. Ini adalah contoh dari K-1 = 2-1 = 1 ruang bagian dimensi.

Sekarang, dalam contoh sederhana ini, himpunan titik data akan tersebar dalam ruang dua dimensi. Poin akan diwakili oleh (x, y), jadi misalnya Anda bisa memiliki titik data seperti (1,2), (2,1), (9,10), (13,13). Sekarang, menggunakan analisis diskriminan linier untuk membuat dua grup A dan B akan menghasilkan titik data yang diklasifikasikan sebagai milik grup A atau ke grup B sehingga properti tertentu terpenuhi. Analisis diskriminan linier mencoba untuk memaksimalkan varians antara kelompok dibandingkan dengan varians dalam kelompok.

Dengan kata lain, grup A dan B akan berjauhan dan berisi titik data yang berdekatan. Dalam contoh sederhana ini, jelas bahwa poin akan dikelompokkan sebagai berikut. Grup A = {(1,2), (2,1)} dan Grup B = {(9,10), (13,13)}.

Sekarang, centroid dihitung sebagai centroid dari kelompok-kelompok titik data demikian

Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5) 

Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)

Centroid hanya 2 poin dan menjangkau garis 1 dimensi yang menggabungkannya.

Gambar 1

Anda dapat menganggap analisis diskriminan linier sebagai proyeksi titik data pada suatu garis sehingga kedua kelompok titik data tersebut "terpisah mungkin"

Jika Anda memiliki tiga grup (dan mengatakan tiga titik data dimensional) maka Anda akan mendapatkan tiga centroid, cukup tiga poin, dan tiga poin dalam ruang 3D menentukan bidang dua dimensi. Sekali lagi aturan K-1 = 3-1 = 2 dimensi.

Saya sarankan Anda mencari sumber daya di web yang akan membantu menjelaskan dan memperluas pengenalan sederhana yang saya berikan; misalnya http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf

martino
sumber
1
Selamat datang di situs kami, Martino!
whuber
terima kasih @whuber, grafik yang bagus, saya tidak punya alat seperti itu di tangan :(
martino
Saya tidak berpikir Anda memiliki reputasi untuk mengirim gambar, Martino: itu sebabnya saya membuatnya untuk Anda. Tapi sekarang - atau segera - Anda akan memiliki perwakilan yang cukup. Jika tidak ada yang praktis, Anda dapat menggunakan perangkat lunak yang tersedia secara bebas dengan kemampuan menggambar geometris seperti R atau Geogebra . (Anda akan menemukan bahwa balasan yang diilustrasikan mendapatkan lebih banyak perhatian: mereka lebih menarik dan mudah dibaca.)
whuber
Mengapa downvote? Jika ada masalah dengan jawabannya, akan sangat membantu untuk menunjukkannya - saya tidak bisa melihatnya
martino