Jika saya mengerti dengan benar, Analisis Diskriminan Linier (LDA) mengasumsikan data terdistribusi normal, fitur independen, dan kovarian identik untuk setiap kelas untuk kriteria optimalitas.
Karena mean dan varians diperkirakan dari data pelatihan, bukankah itu sudah merupakan pelanggaran?
Saya menemukan kutipan dalam sebuah artikel (Li, Tao, Shenghuo Zhu, dan Mitsunori Ogihara. " Menggunakan Analisis Diskriminan untuk Klasifikasi Multi-Kelas: Investigasi Eksperimental ." Pengetahuan dan Sistem Informasi 10, no. 4 (2006): 453-72 .)
"Analisis diskriminan linear sering mencapai kinerja yang baik dalam tugas-tugas pengenalan wajah dan objek, meskipun asumsi matriks kovarians umum di antara kelompok dan normalitas sering dilanggar (Duda, et al., 2001)"
- sayangnya, saya tidak dapat menemukan bagian yang sesuai di Duda et. Al. "Klasifikasi Pola".
Adakah pengalaman atau pemikiran tentang penggunaan LDA (vs LDA atau QDA yang Diatur Resmi) untuk data tidak normal dalam konteks pengurangan dimensionalitas?
Jawaban:
Inilah yang Hastie et al. harus mengatakan tentang hal itu (dalam konteks LDA dua kelas) dalam The Elements of Statistics Learning, bagian 4.3:
Saya tidak sepenuhnya memahami derivasi melalui kuadrat terkecil yang mereka rujuk, tetapi secara umum[Pembaruan: Saya akan meringkasnya secara singkat di beberapa titik] Saya pikir paragraf ini masuk akal: bahkan jika datanya sangat non Gaussian atau kelas kovarian sangat berbeda, sumbu LDA mungkin masih akan menghasilkan beberapa diskriminasi. Namun, titik potong pada sumbu ini (memisahkan dua kelas) yang diberikan oleh LDA dapat sepenuhnya dimatikan. Mengoptimalkannya secara terpisah dapat secara substansial meningkatkan klasifikasi.Perhatikan bahwa ini hanya merujuk pada kinerja klasifikasi. Jika yang Anda inginkan adalah pengurangan dimensi, maka sumbu LDA adalah yang Anda butuhkan. Jadi tebakan saya adalah untuk pengurangan dimensi LDA akan sering melakukan pekerjaan yang layak bahkan jika asumsi dilanggar.
Mengenai rLDA dan QDA: rLDA harus digunakan jika tidak ada cukup titik data untuk memperkirakan kovarian dalam kelas dengan andal (dan sangat penting dalam kasus ini). Dan QDA adalah metode non-linear, jadi saya tidak yakin bagaimana menggunakannya untuk pengurangan dimensi.
sumber
LDA/FDA can start with n dimensions and end with k dimensions, where k < n
. Apakah itu benar? Atau Outputnyac-1 where c is the number of classes and the dimensionality of the data is n with n>c.