Saya menemukan beberapa pro analisis diskriminan dan saya punya pertanyaan tentang mereka. Begitu:
Ketika kelas dipisahkan dengan baik, estimasi parameter untuk regresi logistik secara mengejutkan tidak stabil. Koefisien bisa menuju tak terhingga. LDA tidak menderita masalah ini.
Jika jumlah fitur kecil dan distribusi prediktor kira-kira normal di setiap kelas, model diskriminan linier lagi lebih stabil daripada model regresi logistik.
- Apa stabilitas dan mengapa itu penting? (Jika regresi logistik memberikan kesesuaian yang baik dengan fungsinya, lalu mengapa saya harus peduli dengan stabilitas?)
LDA sangat populer ketika kita memiliki lebih dari dua kelas respons, karena ia juga menyediakan tampilan data dimensi rendah.
- Aku hanya tidak mengerti itu. Bagaimana LDA memberikan tampilan dimensi rendah?
- Jika Anda dapat menyebutkan lebih banyak pro atau kontra, itu akan menyenangkan.
Jawaban:
Jika ada nilai kovariat yang dapat memprediksi hasil biner dengan sempurna maka algoritma regresi logistik, yaitu skoring Fisher, bahkan tidak konvergen. Jika Anda menggunakan R atau SAS, Anda akan mendapatkan peringatan bahwa probabilitas nol dan satu dihitung dan algoritme telah mogok. Ini adalah kasus ekstrem pemisahan sempurna tetapi bahkan jika data hanya dipisahkan pada tingkat yang besar dan tidak sempurna, penaksir kemungkinan maksimum mungkin tidak ada dan bahkan jika memang ada, perkiraan tersebut tidak dapat diandalkan. Fit yang dihasilkan sama sekali tidak bagus. Ada banyak utas yang berhubungan dengan masalah pemisahan di situs ini, jadi silakan lihat.
Sebaliknya, seseorang tidak sering menghadapi masalah estimasi dengan diskriminan Fisher. Itu masih bisa terjadi jika antara atau di dalam matriks kovarians adalah tunggal tetapi itu adalah contoh yang agak jarang. Bahkan, jika ada pemisahan yang lengkap atau semu-lengkap maka semua lebih baik karena diskriminan lebih cenderung berhasil.
Perlu juga disebutkan bahwa bertentangan dengan kepercayaan populer, LDA tidak didasarkan pada asumsi distribusi. Kami hanya secara implisit membutuhkan kesetaraan dari matriks kovarian populasi karena estimator gabungan digunakan untuk matriks dalam kovarians. Di bawah asumsi tambahan normalitas, probabilitas sama sebelumnya dan biaya kesalahan klasifikasi, LDA optimal dalam arti bahwa ia meminimalkan probabilitas kesalahan klasifikasi.
Lebih mudah untuk melihat bahwa untuk kasus dua populasi dan dua variabel. Berikut ini adalah representasi bergambar tentang bagaimana LDA bekerja dalam kasus itu. Ingatlah bahwa kami mencari kombinasi linear dari variabel yang memaksimalkan keterpisahan.
Oleh karena itu data diproyeksikan pada vektor yang arahnya lebih baik mencapai pemisahan ini. Bagaimana kita menemukan bahwa vektor adalah masalah yang menarik dari aljabar linier, pada dasarnya kita memaksimalkan hasil bagi Rayleigh, tetapi mari kita kesampingkan untuk saat ini. Jika data diproyeksikan pada vektor itu, dimensi dikurangi dari dua menjadi satu.
Representasi dimensi rendah tidak datang tanpa kelemahan, yang paling penting tentu saja adalah hilangnya informasi. Ini tidak terlalu menjadi masalah ketika data dipisahkan secara linier tetapi jika tidak, kehilangan informasi mungkin besar dan pengklasifikasi akan berkinerja buruk.
Mungkin juga ada kasus-kasus di mana kesetaraan matriks kovarian mungkin bukan asumsi yang dapat dipertahankan. Anda dapat menggunakan tes untuk memastikan tetapi tes ini sangat sensitif terhadap penyimpangan dari normal sehingga Anda perlu membuat asumsi tambahan ini dan juga menguji untuk itu. Jika ditemukan bahwa populasi normal dengan matriks kovarians yang tidak sama, aturan klasifikasi kuadrat mungkin digunakan (QDA), tetapi saya menemukan bahwa ini adalah aturan yang agak canggung, belum lagi berlawanan dengan intuisi dalam dimensi tinggi.
Secara keseluruhan, keunggulan utama LDA adalah adanya solusi eksplisit dan kenyamanan komputasinya yang tidak berlaku untuk teknik klasifikasi yang lebih maju seperti SVM atau jaringan saraf. Harga yang kami bayar adalah seperangkat asumsi yang menyertainya, yaitu pemisahan linear dan kesetaraan matriks kovarian.
Semoga ini membantu.
EDIT : Saya mencurigai klaim saya bahwa LDA pada kasus-kasus spesifik yang saya sebutkan tidak memerlukan asumsi distribusi selain kesetaraan dari matriks kovarians telah menyebabkan saya mengalami downvote. Namun ini tidak kurang benar, jadi izinkan saya lebih spesifik.
Solusi dari masalah ini (hingga konstanta) dapat ditunjukkan
Ini setara dengan LDA yang Anda peroleh dengan asumsi normalitas, matriks kovarians yang sama, biaya kesalahan klasifikasi, dan probabilitas sebelumnya, bukan? Yah ya, kecuali sekarang kita belum menganggap normal.
Tidak ada yang menghentikan Anda menggunakan diskriminan di atas di semua pengaturan, bahkan jika matriks kovarians tidak benar-benar sama. Mungkin tidak optimal dalam arti biaya yang diharapkan dari kesalahan klasifikasi (ECM) tetapi ini adalah pembelajaran yang diawasi sehingga Anda selalu dapat mengevaluasi kinerjanya, menggunakan misalnya prosedur tahan.
Referensi
sumber
LDA membuat asumsi distribusi yang parah (normalitas multivariat dari semua prediktor) tidak seperti regresi logistik. Cobalah mendapatkan probabilitas posterior keanggotaan kelas berdasarkan jenis kelamin subjek dan Anda akan melihat apa yang saya maksud - probabilitasnya tidak akan akurat.
Ketidakstabilan regresi logistik ketika satu set nilai prediktor memunculkan probabilitas 0 atau 1 ituY= 1 lebih atau kurang ilusi. Iterasi Newton-Raphson akan bertemuβ s yang cukup dekat ± ∞ (misalnya, ± 30 ) sehingga probabilitas yang diprediksi pada dasarnya adalah 0 atau 1 ketika seharusnya. Satu-satunya masalah yang menyebabkan ini adalah efek Hauck-Donner dalam statistik Wald. Solusinya sederhana: jangan gunakan tes Wald dalam kasus ini; gunakan tes rasio kemungkinan, yang berperilaku sangat baik bahkan dengan perkiraan tak terbatas. Untuk interval kepercayaan gunakan interval kemungkinan profil jika ada pemisahan yang lengkap.
Lihat ini untuk informasi lebih lanjut.
Perhatikan bahwa jika normalitas multivariabel berlaku, dengan teorema Bayes asumsi asumsi regresi logistik berlaku. Kebalikannya tidak benar.
Normalitas (atau paling tidak simetri) harus hampir menahan varians dan kovariansi untuk "melakukan pekerjaan". Prediktor non-multivariat yang terdistribusi normal bahkan akan merusak fase ekstraksi diskriminan.
sumber
Penafian: Yang berikut di sini tidak memiliki ketelitian matematis sepenuhnya.
Agar sesuai dengan fungsi (nonlinear) dengan baik Anda perlu pengamatan di semua wilayah fungsi di mana "bentuknya berubah". Regresi logistik sesuai dengan fungsi sigmoid pada data:
Dalam kasus kelas yang dipisahkan dengan baik semua pengamatan akan jatuh ke dua "ujung" di mana sigmoid mendekati asimtotnya (0 dan 1). Karena semua sigmoids "terlihat sama" di wilayah ini, maka dapat dikatakan, tidak heran algoritma pemasangan yang buruk akan mengalami kesulitan untuk menemukan "yang tepat".
Mari kita lihat dua contoh (semoga instruktif) yang dihitung dengan
glm()
fungsi R.Kasus 1: Kedua kelompok tumpang tindih sampai batas tertentu:
dan pengamatan didistribusikan dengan baik di sekitar titik infleksi sigmoid yang terpasang:
Ini adalah parameter yang sesuai dengan kesalahan standar rendah yang bagus:
dan penyimpangan juga terlihat OK:
Kasus 2: Kedua kelompok dipisahkan dengan baik:
dan semua pengamatan terletak pada asimtot secara praktis. The
glm()
Fungsi mencoba yang terbaik untuk menyesuaikan sesuatu, tapi mengeluh tentang numerik 0 atau 1 probabilitas, karena hanya ada pengamatan yang tersedia untuk "mendapatkan bentuk hak sigmoid" di sekitar titik infleksi nya:Anda dapat mendiagnosis masalah dengan mencatat bahwa kesalahan standar dari taksiran parameter melewati atap:
dan pada saat yang sama penyimpangannya tampak mencurigakan baik (karena pengamatannya cocok dengan asimtot dengan baik):
Setidaknya secara intuitif harus jelas dari pertimbangan ini mengapa "estimasi parameter untuk regresi logistik secara mengejutkan tidak stabil".
sumber