Saya mencoba untuk merasakan bagaimana LDA 'cocok' dengan teknik pembelajaran lainnya yang diawasi. Saya sudah membaca beberapa posting LDA-esque di sini tentang LDA. Saya sudah terbiasa dengan perceptron, tetapi baru belajar LDA sekarang.
Bagaimana LDA 'cocok' ke dalam keluarga algoritma pembelajaran yang diawasi? Apa yang mungkin menjadi kelemahannya dibandingkan dengan metode-metode lain itu, dan apa yang lebih baik digunakan untuk itu? Mengapa menggunakan LDA, ketika seseorang hanya bisa menggunakan, misalnya, perceptron misalnya?
Jawaban:
Seperti yang disarankan AdamO dalam komentar di atas, Anda tidak dapat benar-benar melakukan lebih baik daripada membaca Bab 4 dari Elemen Pembelajaran Statistik (yang akan saya sebut HTF) yang membandingkan LDA dengan metode klasifikasi linier lainnya, memberikan banyak contoh, dan juga membahas penggunaan LDA sebagai teknik reduksi dimensi dalam vena PCA yang, seperti yang ditunjukkan oleh ttnphns, agak populer.
Dari sudut pandang klasifikasi, saya pikir perbedaan utamanya adalah ini. Bayangkan Anda memiliki dua kelas dan Anda ingin memisahkannya. Setiap kelas memiliki fungsi kepadatan probabilitas. Situasi terbaik yang mungkin terjadi adalah jika Anda mengetahui fungsi kerapatan ini, karena dengan demikian Anda dapat memprediksi kelas mana yang akan dimiliki dengan mengevaluasi kerapatan khusus kelas pada titik itu.
Beberapa jenis classifier beroperasi dengan menemukan perkiraan fungsi kepadatan kelas. LDA adalah salah satunya; itu membuat asumsi bahwa kepadatan multivariat normal dengan matriks kovarians yang sama. Ini adalah asumsi yang kuat, tetapi jika kira-kira benar, Anda mendapatkan penggolong yang baik. Banyak pengklasifikasi lain juga mengambil pendekatan semacam ini, tetapi cobalah untuk lebih fleksibel daripada mengasumsikan normalitas. Misalnya, lihat halaman 108 tentang HTF.
Di sisi lain, di halaman 210, HTF memperingatkan:
Pendekatan lain adalah hanya untuk mencari batas antara dua kelas, yang dilakukan perceptron. Versi yang lebih canggih dari ini adalah mesin vektor dukungan. Metode-metode ini juga dapat dikombinasikan dengan menambahkan fitur ke data menggunakan teknik yang disebut kernelisasi. Ini tidak bekerja dengan LDA karena tidak mempertahankan normalitas, tetapi tidak ada masalah untuk classifier yang hanya mencari hyperplane pemisah.
Perbedaan antara LDA dan classifier yang mencari hyperplane pemisah adalah seperti perbedaan antara uji-t dan beberapa alternatif nonparamteric dalam statistik biasa. Yang terakhir lebih kuat (untuk outlier, misalnya) tetapi yang pertama adalah optimal jika asumsi-asumsinya puas.
Satu komentar lagi: mungkin perlu disebutkan bahwa beberapa orang mungkin memiliki alasan budaya untuk menggunakan metode seperti LDA atau regresi logistik, yang mungkin dengan sukarela memuntahkan tabel ANOVA, tes hipotesis, dan meyakinkan hal-hal seperti itu. LDA ditemukan oleh Fisher; perceptron pada awalnya merupakan model untuk neuron manusia atau hewan dan tidak memiliki hubungan dengan statistik. Ini juga bekerja sebaliknya; beberapa orang mungkin lebih suka metode seperti mesin vektor dukungan karena mereka memiliki jenis kredit hipster mutakhir yang metode abad kedua puluh tidak bisa cocok. Itu tidak berarti bahwa mereka lebih baik. (Contoh yang baik dari ini dibahas dalam Machine Learning for Hacker , jika saya ingat dengan benar.)
sumber
Untuk intuisi, pertimbangkan hal ini:
Garis mewakili "batas optimal" antara dua kelas o dan x.
LDA mencoba untuk menemukan hyperplane yang meminimalkan varians intersluster dan memaksimalkan varians intracluster, dan kemudian mengambil batas menjadi ortogonal ke hyperplane itu. Di sini, ini mungkin tidak akan berfungsi karena cluster memiliki varians yang besar dalam arah yang sama.
Sebaliknya, perceptron mungkin memiliki peluang yang lebih baik untuk menemukan hyperplane pemisah yang baik.
Dalam kasus kelas yang memiliki distribusi Gaussian, LDA mungkin akan melakukan lebih baik, karena perceptron hanya menemukan hyperplane pemisah yang konsisten dengan data, tanpa memberikan jaminan tentang hyperplane mana yang dipilihnya (mungkin ada angka tak terbatas hiperplanes yang konsisten). Namun, versi perceptron yang lebih canggih dapat memilih hyperplane dengan beberapa properti optimal, seperti memaksimalkan margin di antara kelas-kelas (inilah yang pada dasarnya dilakukan oleh Support Vector Machines).
Perhatikan juga bahwa LDA dan perceptron dapat diperluas ke batas keputusan non-linear melalui trik kernel .
sumber
Salah satu perbedaan terbesar antara LDA dan metode lain adalah bahwa itu hanya teknik pembelajaran mesin untuk data yang diasumsikan terdistribusi normal. Itu bisa menjadi hebat dalam kasus data yang hilang atau pemotongan di mana Anda dapat menggunakan algoritma EM untuk memaksimalkan kemungkinan dalam keadaan yang sangat aneh dan / atau menarik. Caveat emptor karena kesalahan spesifikasi model, seperti data multimodal, dapat menyebabkan prediksi berkinerja buruk di mana pengelompokan K-means akan dilakukan dengan lebih baik. Data multimodal juga dapat dipertanggungjawabkan dengan EM untuk mendeteksi variabel laten atau pengelompokan dalam LDA.
Misalnya, Anda ingin mengukur kemungkinan mengembangkan diagnosis positif AIDS dalam 5 tahun berdasarkan jumlah CD4. Anggap lebih jauh bahwa Anda tidak tahu nilai biomarker spesifik yang sangat memengaruhi jumlah CD4 dan dikaitkan dengan penekanan kekebalan lebih lanjut. Jumlah CD4 di bawah 400 berada di bawah batas bawah deteksi pada tes paling terjangkau. Algoritma EM memungkinkan kita untuk secara iteratif menghitung LDA dan penugasan biomarker serta sarana dan kovarian untuk CD4 untuk DF yang tidak dikunci.
sumber