Ada kata-kata dari "Elemen Pembelajaran Statistik" di halaman 91:
Centroid K dalam rentang ruang input p-dimensi paling banyak di subruang dimensi K-1, dan jika p jauh lebih besar dari K, ini akan menjadi penurunan dimensi yang cukup besar.
Saya punya dua pertanyaan:
- Mengapa centroid K dalam rentang ruang input p-dimensi paling banyak dari subruang dimensi K-1?
- Bagaimana letak K centroid?
Tidak ada penjelasan dalam buku ini dan saya tidak menemukan jawaban dari makalah terkait.
machine-learning
discriminant-analysis
jerry_sjtu
sumber
sumber
Jawaban:
Diskriminan adalah sumbu dan variabel laten yang membedakan kelas dengan paling kuat. Jumlah diskriminan yang mungkin adalah . Sebagai contoh, dengan k = 3 kelas dalam p = 2 dimensi ruang di sana dapat ada paling banyak 2 diskriminan seperti pada grafik di bawah ini. (Perhatikan bahwa diskriminan tidak harus ortogonal sebagai sumbu yang ditarik di ruang asli, meskipun mereka, sebagai variabel, tidak berkorelasi.) Centroid dari kelas-kelas tersebut terletak di dalam subruang diskriminan sesuai dengan koordinat tegak lurusnya terhadap diskriminan.m i n ( k - 1 , p )
Aljabar LDA pada fase ekstraksi ada di sini .
sumber
Sementara "Elemen Pembelajaran Statistik" adalah buku yang brilian, ia membutuhkan tingkat pengetahuan yang relatif tinggi untuk mendapatkan yang terbaik darinya. Ada banyak sumber daya lain di web untuk membantu Anda memahami topik dalam buku ini.
Mari kita ambil contoh yang sangat sederhana dari analisis diskriminan linier di mana Anda ingin mengelompokkan satu set titik data dua dimensi ke dalam K = 2 kelompok. Penurunan dimensi hanya akan menjadi K-1 = 2-1 = 1. Seperti yang dijelaskan @deinst, penurunan dimensi dapat dijelaskan dengan geometri elementer.
Dua titik dalam dimensi apa pun dapat digabungkan dengan garis, dan garis adalah satu dimensi. Ini adalah contoh dari K-1 = 2-1 = 1 ruang bagian dimensi.
Sekarang, dalam contoh sederhana ini, himpunan titik data akan tersebar dalam ruang dua dimensi. Poin akan diwakili oleh (x, y), jadi misalnya Anda bisa memiliki titik data seperti (1,2), (2,1), (9,10), (13,13). Sekarang, menggunakan analisis diskriminan linier untuk membuat dua grup A dan B akan menghasilkan titik data yang diklasifikasikan sebagai milik grup A atau ke grup B sehingga properti tertentu terpenuhi. Analisis diskriminan linier mencoba untuk memaksimalkan varians antara kelompok dibandingkan dengan varians dalam kelompok.
Dengan kata lain, grup A dan B akan berjauhan dan berisi titik data yang berdekatan. Dalam contoh sederhana ini, jelas bahwa poin akan dikelompokkan sebagai berikut. Grup A = {(1,2), (2,1)} dan Grup B = {(9,10), (13,13)}.
Sekarang, centroid dihitung sebagai centroid dari kelompok-kelompok titik data demikian
Centroid hanya 2 poin dan menjangkau garis 1 dimensi yang menggabungkannya.
Anda dapat menganggap analisis diskriminan linier sebagai proyeksi titik data pada suatu garis sehingga kedua kelompok titik data tersebut "terpisah mungkin"
Jika Anda memiliki tiga grup (dan mengatakan tiga titik data dimensional) maka Anda akan mendapatkan tiga centroid, cukup tiga poin, dan tiga poin dalam ruang 3D menentukan bidang dua dimensi. Sekali lagi aturan K-1 = 3-1 = 2 dimensi.
Saya sarankan Anda mencari sumber daya di web yang akan membantu menjelaskan dan memperluas pengenalan sederhana yang saya berikan; misalnya http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf
sumber