Kapan regresi logistik cocok?

12

Saat ini saya sedang belajar sendiri bagaimana melakukan klasifikasi, dan secara khusus saya melihat tiga metode: mendukung mesin vektor, jaringan saraf, dan regresi logistik. Apa yang saya coba pahami adalah mengapa regresi logistik akan berkinerja lebih baik daripada dua lainnya.

Dari pemahaman saya tentang regresi logistik, idenya adalah untuk mencocokkan fungsi logistik dengan seluruh data. Jadi jika data saya adalah biner, semua data saya dengan label 0 harus dipetakan dengan nilai 0 (atau dekat dengan itu), dan semua data saya dengan nilai 1 harus dipetakan ke nilai 1 (atau dekat dengan itu). Sekarang, karena fungsi logistik kontinu dan lancar, melakukan regresi ini membutuhkan semua data saya agar sesuai dengan kurva; tidak ada kepentingan yang lebih besar diterapkan pada titik data di dekat batas keputusan, dan semua titik data berkontribusi terhadap kerugian dengan jumlah yang berbeda.

Namun, dengan mesin vektor dukungan dan jaringan saraf, hanya titik-titik data di dekat batas keputusan yang penting; selama titik data tetap berada di sisi yang sama dari batas keputusan, itu akan berkontribusi kerugian yang sama.

Oleh karena itu, mengapa regresi logistik akan pernah mengungguli mesin vektor dukungan atau jaringan saraf, mengingat bahwa "membuang-buang sumber daya" pada upaya menyesuaikan kurva dengan banyak data yang tidak penting (mudah diklasifikasikan), daripada hanya berfokus pada data sulit di sekitar keputusan batas?

Karnivaurus
sumber
5
LR akan memberi Anda estimasi probabilitas sementara SVM memberikan estimasi biner. Itu juga membuat LR bermanfaat ketika tidak ada hyperplane pemisah antar kelas. Juga, Anda harus mempertimbangkan kompleksitas algoritma dan karakteristik lain seperti jumlah parameter dan sensitivitas.
Bar
1
Terkait: stats.stackexchange.com/questions/127042/...
Sycorax mengatakan Reinstate Monica

Jawaban:

28

Sumber daya yang Anda anggap "terbuang" sebenarnya adalah informasi yang diperoleh dari regresi logistik. Anda mulai dengan premis yang salah. Regresi logistik bukan penggolong. Ini adalah penaksir probabilitas / risiko. Tidak seperti SVM, ini memungkinkan dan mengharapkan "panggilan dekat". Ini akan mengarah pada pengambilan keputusan yang optimal karena tidak mencoba mengelabui sinyal prediksi ke dalam menggabungkan fungsi utilitas yang tersirat setiap kali Anda mengklasifikasikan pengamatan. Tujuan dari regresi logistik menggunakan estimasi kemungkinan maksimum adalah untuk memberikan estimasi Prob yang optimal . Hasilnya digunakan dalam banyak cara, misalnya kurva angkat, penilaian risiko kredit, dll. Lihat buku Nate Silver, Signal and the Noise untuk argumen menarik yang mendukung alasan probabilistik.(Y=1|X)

Perhatikan bahwa variabel dependen dalam regresi logistik dapat dikodekan dengan cara apa pun yang Anda inginkan: 0/1, A / B, ya / tidak, dll.Y

Asumsi utama regresi logistik adalah bahwa benar-benar biner, misalnya tidak dibuat dari variabel respon ordinal atau kontinu yang mendasarinya. Ini, seperti metode klasifikasi, adalah untuk fenomena yang benar-benar semua atau tidak sama sekali.Y

Beberapa analis berpikir bahwa regresi logistik mengasumsikan linearitas efek prediksi pada skala peluang log. Itu hanya benar ketika DR Cox menemukan model logistik pada tahun 1958 pada saat komputasi tidak tersedia untuk memperluas model dengan menggunakan alat-alat seperti regresi splines. Satu-satunya kelemahan nyata dalam regresi logistik adalah Anda harus menentukan interaksi mana yang ingin Anda izinkan dalam model. Untuk sebagian besar dataset, ini berubah menjadi kekuatan karena efek utama aditif umumnya merupakan prediktor yang jauh lebih kuat daripada interaksi, dan metode pembelajaran mesin yang memberikan prioritas yang sama untuk interaksi dapat menjadi tidak stabil, sulit ditafsirkan, dan memerlukan ukuran sampel yang lebih besar daripada regresi logistik untuk memprediksi baik.

Frank Harrell
sumber
6
+1. Sejujurnya, saya tidak pernah menemukan SVM bermanfaat. Mereka seksi tetapi lambat untuk dilatih dan dinilai - menurut pengalaman saya - dan memiliki banyak pilihan yang perlu Anda mainkan (termasuk kernel). Jaringan saraf saya temukan bermanfaat, tetapi juga banyak pilihan dan penyesuaian. Regresi logistik sederhana dan memberikan hasil yang dikalibrasi dengan cukup baik di luar kotak. Kalibrasi penting untuk penggunaan di dunia nyata. Tentu saja, downside adalah bahwa itu linier, jadi tidak bisa cocok dengan cluster-ish, data kental serta metode lain seperti Hutan Acak.
Wayne
1
Jawaban yang bagus Ngomong-ngomong, Anda mungkin tertarik untuk mengetahui bahwa baru-baru ini pembelajar mesin telah datang untuk menyesuaikan metode mewah mereka ke dalam kerangka kerja tradisional seperti kemungkinan maksimum yang dihukum - dan ternyata metode mewah bekerja lebih baik ketika ini dilakukan. Pertimbangkan XGBoost, yang bisa dibilang algoritma ensemble tree boost yang paling efektif yang pernah ada. Perhitungannya ada di sini: xgboost.readthedocs.io/en/latest/model.html . Seharusnya terlihat cukup akrab bagi ahli statistik tradisional, dan Anda dapat menyesuaikan model untuk banyak tujuan statistik umum dengan fungsi kerugian biasa.
Paul
5

Anda benar, seringkali regresi logistik buruk sebagai penggolong (terutama bila dibandingkan dengan algoritma lain). Namun, ini tidak berarti regresi logistik harus dilupakan dan tidak pernah dipelajari karena memiliki dua keuntungan besar:

  1. Hasil probabilistik. Frank Harrell (+1) menjelaskan ini dengan sangat baik dalam jawabannya.

  2. Y=1X1=12X2,...Xp

TrynnaDoStat
sumber
5
Dan kinerja yang buruk sebagai penggolong adalah hasil dari menggunakan skor akurasi yang tidak tepat, bukan masalah yang melekat pada regresi logistik.
Frank Harrell
@ FrankHarrell: Saya telah melakukan beberapa percobaan akhir-akhir ini dan saya akan mengatakan bahwa Regresi Logistik cocok data dengan kebebasan yang jauh lebih sedikit daripada metode lain. Anda perlu menambahkan interaksi dan melakukan lebih banyak rekayasa fitur untuk mencocokkan, katakanlah, fleksibilitas Hutan Acak atau GAM. (Tentu saja fleksibilitas adalah tali pengikat yang melintasi jurang overfitting.)
Wayne
3
@wayne Kebebasan yang kurang ini, seperti yang Anda nyatakan, sangat membantu dalam banyak kasus, karena memberikan stabilitas
rapaio
3
Tidak hanya asumsi istilah interaksi kurang penting daripada istilah aditif menambah fleksibilitas tetapi Anda dapat mengendurkan asumsi dalam banyak cara. Saya menambahkan lebih banyak tentang ini dalam jawaban asli saya.
Frank Harrell
2
@rapaio: Ya, fleksibilitas berbahaya, baik dalam hal overfitting, tetapi juga dengan cara lain. Ini masalah domain / penggunaan: apakah data Anda berisik, atau apakah itu benar-benar "lumpy / cluster-ish" jika saya dapat menggunakan istilah itu?
Wayne