Bagaimana LDA, teknik klasifikasi, juga berfungsi sebagai teknik reduksi dimensi seperti PCA

19

Pada artikel ini , penulis menghubungkan analisis diskriminan linier (LDA) ke analisis komponen utama (PCA). Dengan pengetahuan saya yang terbatas, saya tidak bisa mengikuti bagaimana LDA bisa agak mirip dengan PCA.

Saya selalu berpikir bahwa LDA adalah bentuk algoritma klasifikasi, mirip dengan regresi logistik. Saya akan menghargai bantuan dalam memahami bagaimana LDA mirip dengan PCA, yaitu bagaimana teknik pengurangan dimensi.

Pemenang
sumber
2
Tidak benar menyebut LDA hanya teknik klasifikasi. Ini adalah teknik 2-tahap gabungan: pertama mengurangi dimensionalitas, kemudian mengklasifikasikan. Sebagai reduksi dimensi, ia diawasi, tidak seperti PCA. Sebagai klasifikasi, ini mempertimbangkan probabilitas marjinal, tidak seperti regresi logistik.
ttnphns
Jelaslah untuk menggunakan istilah 'pengurangan dimensi' untuk hanya berurusan dengan metode pembelajaran yang tidak diawasi, misalnya, analisis pengelompokan dan redundansi. LDA benar-benar diawasi pembelajaran sehingga akan menciptakan bias overfitting kalau itu akan digunakan pada langkah pertama pengurangan data.
Frank Harrell
Pertanyaan yang sangat mirip sebelumnya: stats.stackexchange.com/q/22884/3277 .
ttnphns
1
Frank, berbagai strategi, misalnya, pemilihan fitur, dapat diterapkan pada tahap pertama LDA (termasuk pendekatan bertahap yang menjijikkan bagi Anda :-).
ttnphns

Jawaban:

22

Seperti yang telah saya catat dalam komentar untuk pertanyaan Anda, analisis diskriminan adalah prosedur gabungan dengan dua tahap berbeda - pengurangan dimensi (diawasi) dan tahap klasifikasi. Pada pengurangan dimensionalitas kami mengekstrak fungsi diskriminan yang menggantikan variabel penjelas asli. Kemudian kami mengklasifikasikan (biasanya dengan pendekatan Bayes) pengamatan ke kelas menggunakan fungsi-fungsi tersebut.

Beberapa orang cenderung gagal untuk mengenali sifat dua tahap LDA yang jelas ini hanya karena mereka telah berkenalan hanya dengan LDA dengan 2 kelas (disebut analisis diskriminan Fisher ). Dalam analisis tersebut, hanya ada satu fungsi diskriminan dan klasifikasi mudah, sehingga semuanya dapat dijelaskan dalam buku teks dalam satu "lulus" tunggal tanpa mengundang konsep pengurangan ruang dan klasifikasi Bayes.

LDA terkait erat dengan MANOVA. Yang terakhir adalah sisi "permukaan dan luas" dari model linier (multivariat) sedangkan gambar "kedalaman dan fokus" itu adalah analisis korelasi kanonik (CCA). Masalahnya adalah bahwa korelasi antara dua set variabel multivariat bukan uni-dimensional dan dijelaskan oleh beberapa pasang variabel "laten" yang disebut variasi kanonik.

k-1k

Dalam CCA, kami menganggap dua set variabel berkorelasi X dan Y sebagai hak yang sama. Oleh karena itu, kami mengekstraksi varian kanonik dari kedua sisi, dan mereka membentuk pasangan: variate 1 dari himpunan X dan variate 1 dari himpunan Y dengan korelasi kanonik di antara mereka secara maksimal; kemudian variasikan 2 dari set X dan variate 2 dari set Y dengan korelasi kanonik yang lebih kecil, dll. Dalam LDA, kita biasanya tidak tertarik secara numerik dalam varian kanonik dari sisi set kelas; namun kami tertarik pada varian kanonik dari sisi set penjelas. Itu disebut fungsi diskriminan kanonik atau diskriminan .

halkmsayan(k-1,hal)lihat ).

Untuk mengulang, ini sebenarnya CCA pada dasarnya. LDA dengan 3+ kelas bahkan disebut "LDA kanonik". Meskipun CCA dan LDA biasanya diimplementasikan secara algoritmik agak berbeda, dalam pandangan efisiensi program, mereka "sama" cukup sehingga memungkinkan untuk menghitung ulang hasil (koefisien dll) yang diperoleh dalam satu prosedur ke yang diperoleh di yang lain. Sebagian besar kekhususan LDA terletak pada domain pengkodean variabel kategorikal yang mewakili kelompok. Ini adalah dilema yang sama yang diamati dalam (M) ANOVA. Skema pengkodean yang berbeda mengarah pada cara interpretasi koefisien yang berbeda pula.

Karena LDA (sebagai pengurangan dimensi) dapat dipahami sebagai kasus CCA tertentu, Anda harus menjelajahi jawaban ini dengan membandingkan CCA dengan PCA dan regresi. Poin utama di sana adalah bahwa CCA, dalam arti tertentu, lebih dekat ke regresi daripada PCA karena CCA adalah teknik yang diawasi (kombinasi linear laten digunakan untuk berkorelasi dengan sesuatu yang eksternal) dan PCA tidak (kombinasi linear laten diambil untuk meringkas internal). Ini adalah dua cabang pengurangan dimensi.

Ketika datang ke matematika Anda mungkin menemukan bahwa sementara varian komponen utama sesuai dengan nilai eigen dari data cloud (matriks kovarians antara variabel), varian dari diskriminan tidak begitu jelas terkait dengan nilai-nilai eigen yang diproduksi di LDA. Alasannya adalah bahwa dalam LDA, nilai eigen tidak meringkas bentuk data cloud; melainkan berkaitan dengan kuantitas abstrak dari perbandingan antara kelas dengan variasi dalam kelas di cloud.

Jadi, komponen utama memaksimalkan varians dan diskriminan memaksimalkan pemisahan kelas; kasus sederhana di mana PC gagal untuk membedakan antara kelas cukup baik tetapi dapat diskriminatif adalah gambar - gambar ini . Saat ditarik sebagai garis di ruang fitur asli, biasanya diskriminan tidak tampak ortogonal (tidak berkorelasi), tetapi PC melakukannya.


Catatan kaki untuk teliti. Bagaimana, dalam hasil mereka, LDA persis terkait dengan CCA . Untuk mengulang: jika Anda melakukan LDA dengan pvariabel dan kkelas dan Anda melakukan CCA dengan Set1 sebagai pvariabel tersebut dan Set2 sebagai k-1variabel dummy indikator yang mewakili kelompok (sebenarnya, belum tentu variabel indikator - jenis variabel kontras lain, seperti deviasi atau Helmert - akan melakukan ), maka hasilnya setara dalam hal variasi kanonik yang diekstraksi untuk Set1 - mereka secara langsung sesuai dengan fungsi diskriminan yang diekstraksi dalam LDA. Apa hubungan tepatnya?

jj

Koefisien standar CCAKoefisien mentah LDA=Nilai variasi kanonik CCANilai diskriminan LDA=dikumpulkan dalam varian kelas dalam varian tersebut dikumpulkan dalam varian kelas di diskriminan

n-11

dikumpulkan dalam varian kelas dalam varian tersebut
st. penyimpangan dari diskriminanσ

Perbedaan antara CCA dan LDA adalah karena LDA "tahu" bahwa ada kelas (grup): Anda secara langsung menunjukkan grup untuk menghitung di dalam dan di antara matriks pencar. Itu membuatnya baik perhitungan lebih cepat dan hasil lebih nyaman untuk selanjutnya klasifikasi oleh diskriminan. CCA, di sisi lain, tidak mengetahui kelas dan memproses data seolah-olah mereka semua adalah variabel kontinu - yang lebih umum tetapi cara komputasi yang lebih lambat. Tetapi hasilnya setara, dan saya sudah menunjukkan caranya.

Sejauh ini tersirat bahwa k-1boneka dimasukkan CCA dengan cara yang khas, yaitu berpusat (seperti variabel Set1). Orang mungkin bertanya, apakah mungkin untuk memasukkan semua kboneka dan tidak memusatkan mereka (untuk menghindari singularitas)? Ya, itu mungkin, meskipun mungkin kurang nyaman. Akan muncul nilai nol kanonical-eigenvalue tambahan, koefisien untuk itu harus dibuang. Hasil lainnya tetap valid. Kecuali df untuk menguji signifikansi korelasi kanonik. Df untuk korelasi pertama p*kadalah yang salah dan benar, seperti dalam LDA, adalah p*(k-1).

ttnphns
sumber