Analisis diskriminan vs regresi logistik

Saya menemukan beberapa pro analisis diskriminan dan saya punya pertanyaan tentang mereka. Begitu:

Ketika kelas dipisahkan dengan baik, estimasi parameter untuk regresi logistik secara mengejutkan tidak stabil. Koefisien bisa menuju tak terhingga. LDA tidak menderita masalah ini.

Jika jumlah fitur kecil dan distribusi prediktor kira-kira normal di setiap kelas, model diskriminan linier lagi lebih stabil daripada model regresi logistik. $X$

Apa stabilitas dan mengapa itu penting? (Jika regresi logistik memberikan kesesuaian yang baik dengan fungsinya, lalu mengapa saya harus peduli dengan stabilitas?)

LDA sangat populer ketika kita memiliki lebih dari dua kelas respons, karena ia juga menyediakan tampilan data dimensi rendah.

Aku hanya tidak mengerti itu. Bagaimana LDA memberikan tampilan dimensi rendah?
Jika Anda dapat menyebutkan lebih banyak pro atau kontra, itu akan menyenangkan.

regression logistic multivariate-analysis discriminant-analysis Yurii
sumber

Anda mungkin juga ingin membaca tanya-jawab lain tentang topik ini (lda vs logistik). Silakan cari situs ini.

ttnphns

Jawaban:

Ketika kelas dipisahkan dengan baik, estimasi parameter untuk regresi logistik secara mengejutkan tidak stabil. Koefisien bisa menuju tak terhingga. LDA tidak menderita masalah ini.

Jika ada nilai kovariat yang dapat memprediksi hasil biner dengan sempurna maka algoritma regresi logistik, yaitu skoring Fisher, bahkan tidak konvergen. Jika Anda menggunakan R atau SAS, Anda akan mendapatkan peringatan bahwa probabilitas nol dan satu dihitung dan algoritme telah mogok. Ini adalah kasus ekstrem pemisahan sempurna tetapi bahkan jika data hanya dipisahkan pada tingkat yang besar dan tidak sempurna, penaksir kemungkinan maksimum mungkin tidak ada dan bahkan jika memang ada, perkiraan tersebut tidak dapat diandalkan. Fit yang dihasilkan sama sekali tidak bagus. Ada banyak utas yang berhubungan dengan masalah pemisahan di situs ini, jadi silakan lihat.

Sebaliknya, seseorang tidak sering menghadapi masalah estimasi dengan diskriminan Fisher. Itu masih bisa terjadi jika antara atau di dalam matriks kovarians adalah tunggal tetapi itu adalah contoh yang agak jarang. Bahkan, jika ada pemisahan yang lengkap atau semu-lengkap maka semua lebih baik karena diskriminan lebih cenderung berhasil.

Perlu juga disebutkan bahwa bertentangan dengan kepercayaan populer, LDA tidak didasarkan pada asumsi distribusi. Kami hanya secara implisit membutuhkan kesetaraan dari matriks kovarian populasi karena estimator gabungan digunakan untuk matriks dalam kovarians. Di bawah asumsi tambahan normalitas, probabilitas sama sebelumnya dan biaya kesalahan klasifikasi, LDA optimal dalam arti bahwa ia meminimalkan probabilitas kesalahan klasifikasi.

Bagaimana LDA memberikan tampilan dimensi rendah?

Lebih mudah untuk melihat bahwa untuk kasus dua populasi dan dua variabel. Berikut ini adalah representasi bergambar tentang bagaimana LDA bekerja dalam kasus itu. Ingatlah bahwa kami mencari kombinasi linear dari variabel yang memaksimalkan keterpisahan.

Oleh karena itu data diproyeksikan pada vektor yang arahnya lebih baik mencapai pemisahan ini. Bagaimana kita menemukan bahwa vektor adalah masalah yang menarik dari aljabar linier, pada dasarnya kita memaksimalkan hasil bagi Rayleigh, tetapi mari kita kesampingkan untuk saat ini. Jika data diproyeksikan pada vektor itu, dimensi dikurangi dari dua menjadi satu.

$p$ $g$ $\min(g-1,p)$

Jika Anda dapat menyebutkan lebih banyak pro atau kontra, itu akan menyenangkan.

Representasi dimensi rendah tidak datang tanpa kelemahan, yang paling penting tentu saja adalah hilangnya informasi. Ini tidak terlalu menjadi masalah ketika data dipisahkan secara linier tetapi jika tidak, kehilangan informasi mungkin besar dan pengklasifikasi akan berkinerja buruk.

Mungkin juga ada kasus-kasus di mana kesetaraan matriks kovarian mungkin bukan asumsi yang dapat dipertahankan. Anda dapat menggunakan tes untuk memastikan tetapi tes ini sangat sensitif terhadap penyimpangan dari normal sehingga Anda perlu membuat asumsi tambahan ini dan juga menguji untuk itu. Jika ditemukan bahwa populasi normal dengan matriks kovarians yang tidak sama, aturan klasifikasi kuadrat mungkin digunakan (QDA), tetapi saya menemukan bahwa ini adalah aturan yang agak canggung, belum lagi berlawanan dengan intuisi dalam dimensi tinggi.

Secara keseluruhan, keunggulan utama LDA adalah adanya solusi eksplisit dan kenyamanan komputasinya yang tidak berlaku untuk teknik klasifikasi yang lebih maju seperti SVM atau jaringan saraf. Harga yang kami bayar adalah seperangkat asumsi yang menyertainya, yaitu pemisahan linear dan kesetaraan matriks kovarian.

Semoga ini membantu.

EDIT : Saya mencurigai klaim saya bahwa LDA pada kasus-kasus spesifik yang saya sebutkan tidak memerlukan asumsi distribusi selain kesetaraan dari matriks kovarians telah menyebabkan saya mengalami downvote. Namun ini tidak kurang benar, jadi izinkan saya lebih spesifik.

$\bar{\mathbf{x}}_i, \ i = 1,2$ $\mathbf{S}_{\text{pooled}}$

\underset{Sebuah}{maks} \frac{{({Sebuah}^{T} {\bar{x}}_{1} - {Sebuah}^{T} {\bar{x}}_{2})}^{2}}{{Sebuah}^{T} S_{dikumpulkan} Sebuah} = \underset{Sebuah}{maks} \frac{{({Sebuah}^{T} d)}^{2}}{{Sebuah}^{T} S_{dikumpulkan} Sebuah}

$\max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \bar{\mathbf{x}}_1 - \mathbf{a}^{T} \bar{\mathbf{x}}_2 \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} } = \max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \mathbf{d} \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} }$

Solusi dari masalah ini (hingga konstanta) dapat ditunjukkan

Sebuah = S_{dikumpulkan}^{- 1} d = S_{dikumpulkan}^{- 1} ({\bar{x}}_{1} - {\bar{x}}_{2})

$\mathbf{a} = \mathbf{S}_{\text{pooled}}^{-1} \mathbf{d} = \mathbf{S}_{\text{pooled}}^{-1} \left( \bar{\mathbf{x}}_1 - \bar{\mathbf{x}}_2 \right)$

Ini setara dengan LDA yang Anda peroleh dengan asumsi normalitas, matriks kovarians yang sama, biaya kesalahan klasifikasi, dan probabilitas sebelumnya, bukan? Yah ya, kecuali sekarang kita belum menganggap normal.

Tidak ada yang menghentikan Anda menggunakan diskriminan di atas di semua pengaturan, bahkan jika matriks kovarians tidak benar-benar sama. Mungkin tidak optimal dalam arti biaya yang diharapkan dari kesalahan klasifikasi (ECM) tetapi ini adalah pembelajaran yang diawasi sehingga Anda selalu dapat mengevaluasi kinerjanya, menggunakan misalnya prosedur tahan.

Referensi

Uskup, jaringan Christopher M. Neural untuk pengenalan pola. Pers universitas Oxford, 1995.

Johnson, Richard Arnold, dan Dean W. Wichern. Analisis statistik multivariat terapan. Vol. 4. Englewood Cliffs, NJ: Prentice hall, 1992.

JohnK
sumber

(Saya bukan pengguna yang downvoted). Untuk mencoba mendamaikan jawaban Anda dengan jawaban Frank Harell, menurut saya orang masih perlu berasumsi bahwa semua variabel kontinu (jika tidak, saya pikir maksimum hasil bagi Rayleigh tidak akan unik).

user603

@ user603 Saya belum melihat kondisi ini di mana pun. Solusinya hanya ditentukan hingga konstan pula.

JohnK

John, Bayangkan bahwa hanya ada 2 kelas (dan karenanya, hanya satu garis diskriminan) yang memiliki distribusi identik, simetris (ellipsoidal), dan probabilitas yang sama sebelumnya. Maka kita sebenarnya tidak perlu berasumsi distribusi normal khusus karena kita tidak perlu pdf untuk menetapkan kasus ke kelas. Dalam pengaturan yang lebih kompleks (seperti 3+ kelas) kita harus menggunakan beberapa pdf, dan biasanya normal.

ttnphns

W^{- 1} B

$\mathbf{W}^{-1} \mathbf{B}$

W

$\mathbf{W}$

B

$\mathbf{B}$

John, komentar terakhirmu adalah bagaimana denganmu dan aku setuju.

ttnphns

LDA membuat asumsi distribusi yang parah (normalitas multivariat dari semua prediktor) tidak seperti regresi logistik. Cobalah mendapatkan probabilitas posterior keanggotaan kelas berdasarkan jenis kelamin subjek dan Anda akan melihat apa yang saya maksud - probabilitasnya tidak akan akurat.

Ketidakstabilan regresi logistik ketika satu set nilai prediktor memunculkan probabilitas 0 atau 1 itu $Y=1$ lebih atau kurang ilusi. Iterasi Newton-Raphson akan bertemu $\beta$ s yang cukup dekat $\pm \infty$ (misalnya, $\pm 30$ ) sehingga probabilitas yang diprediksi pada dasarnya adalah 0 atau 1 ketika seharusnya. Satu-satunya masalah yang menyebabkan ini adalah efek Hauck-Donner dalam statistik Wald. Solusinya sederhana: jangan gunakan tes Wald dalam kasus ini; gunakan tes rasio kemungkinan, yang berperilaku sangat baik bahkan dengan perkiraan tak terbatas. Untuk interval kepercayaan gunakan interval kemungkinan profil jika ada pemisahan yang lengkap.

Lihat ini untuk informasi lebih lanjut.

Perhatikan bahwa jika normalitas multivariabel berlaku, dengan teorema Bayes asumsi asumsi regresi logistik berlaku. Kebalikannya tidak benar.

Normalitas (atau paling tidak simetri) harus hampir menahan varians dan kovariansi untuk "melakukan pekerjaan". Prediktor non-multivariat yang terdistribusi normal bahkan akan merusak fase ekstraksi diskriminan.

Frank Harrell
sumber

Menurut saya, normalitas diperlukan secara khusus pada tahap klasifikasi (prediksi kelas) LDA. Tidak perlu pada tahap ekstraksi diskriminan (reduksi dimensi), yang, bagaimanapun, masih mengasumsikan homogenitas varians-kovarian. (Menariknya bahwa asumsi yang terakhir mungkin agak dirilis di klasifikasi: Anda dapat menggunakan kovarian dalam kelas yang terpisah untuk para diskriminan di sana.)

ttnphns

Agak menyesatkan untuk mengatakan bahwa hanya asumsi matriks kovarians yang sama diperlukan untuk bagian LDA untuk bekerja. Anda membuat lompatan keyakinan dengan menganggap bahwa kovarian adalah ringkasan data yang baik. Pikirkan kasus khusus LDA: 2-sampel

t

$t$ -uji. Itu

t

$t$ -test mengasumsikan bahwa varians adalah ringkasan dispersi yang baik. Asumsi distribusi normal yang membuat varians statistik yang cukup dan statistik yang tidak dihancurkan oleh outlier. LDA tidak memiliki masalah konvergensi / ketidakstabilan justru karena menggunakan statistik yang cukup sederhana.

Frank Harrell

Saya mencadangkan 'reduksi data' dan 'reduksi dimensionalitas' untuk merujuk pada pembelajaran tanpa pengawasan. Ya saya menyiratkan bahwa jumlah kuadrat dalam dan dari diri mereka sendiri mungkin memerlukan distribusi normal untuk menjadi pilihan yang baik. Pikirkan lagi 2 sampel

t

$t$ -test (kasus khusus dari semua ini) dan seberapa mengerikan kinerjanya jika standar deviasi adalah pilihan yang buruk untuk ukuran dispersi. SD membutuhkan simetri plus probabilitas rendah pengamatan yang ada untuk bekerja dengan baik.

Frank Harrell

Ya SD membuat berbagai asumsi dan tidak kuat. Untuk tingkat yang lebih rendah, mean membuat beberapa asumsi menjadi bermakna. Kuadrat terkecil, PCA, dan LDA secara efektif membuat asumsi distribusi lebih dari yang dipikirkan banyak orang.

Frank Harrell

Saya tidak yakin dengan alasan ini dan saya masih percaya bahwa pengunduran diri itu tidak adil tetapi saya tidak berwenang dalam hal ini. Referensi yang saya berikan akan memberi tahu Anda hal yang sama.

JohnK

Ketika kelas dipisahkan dengan baik, estimasi parameter untuk regresi logistik secara mengejutkan tidak stabil. Koefisien bisa menuju tak terhingga. LDA tidak menderita masalah ini.

Penafian: Yang berikut di sini tidak memiliki ketelitian matematis sepenuhnya.

Agar sesuai dengan fungsi (nonlinear) dengan baik Anda perlu pengamatan di semua wilayah fungsi di mana "bentuknya berubah". Regresi logistik sesuai dengan fungsi sigmoid pada data:

Dalam kasus kelas yang dipisahkan dengan baik semua pengamatan akan jatuh ke dua "ujung" di mana sigmoid mendekati asimtotnya (0 dan 1). Karena semua sigmoids "terlihat sama" di wilayah ini, maka dapat dikatakan, tidak heran algoritma pemasangan yang buruk akan mengalami kesulitan untuk menemukan "yang tepat".

Mari kita lihat dua contoh (semoga instruktif) yang dihitung dengan glm()fungsi R.

Kasus 1: Kedua kelompok tumpang tindih sampai batas tertentu:

dan pengamatan didistribusikan dengan baik di sekitar titik infleksi sigmoid yang terpasang:

Ini adalah parameter yang sesuai dengan kesalahan standar rendah yang bagus:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

dan penyimpangan juga terlihat OK:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

Kasus 2: Kedua kelompok dipisahkan dengan baik:

dan semua pengamatan terletak pada asimtot secara praktis. The glm()Fungsi mencoba yang terbaik untuk menyesuaikan sesuatu, tapi mengeluh tentang numerik 0 atau 1 probabilitas, karena hanya ada pengamatan yang tersedia untuk "mendapatkan bentuk hak sigmoid" di sekitar titik infleksi nya:

Anda dapat mendiagnosis masalah dengan mencatat bahwa kesalahan standar dari taksiran parameter melewati atap:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

dan pada saat yang sama penyimpangannya tampak mencurigakan baik (karena pengamatannya cocok dengan asimtot dengan baik):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

Setidaknya secara intuitif harus jelas dari pertimbangan ini mengapa "estimasi parameter untuk regresi logistik secara mengejutkan tidak stabil".

Laryx Decidua
sumber

Lihatlah jawaban oleh @ Frank Harrell yang jelas tidak setuju dengan Anda! Dan pelajari tautan dan rujukannya ...

kjetil b halvorsen

@kjetilbhalvorsen Poin utama saya adalah ilustrasi intuitif dari kecocokan "sangat tidak stabil". Saya menghapus kalimat terakhir yang mengacu pada LDA.

Laryx Decidua