Bisakah seseorang tolong beri saya intuisi kapan harus memilih SVM atau LR? Saya ingin memahami intuisi di balik apa perbedaan antara kriteria optimasi belajar hyperplane keduanya, di mana tujuan masing-masing adalah sebagai berikut:
- SVM: Cobalah untuk memaksimalkan margin antara vektor dukungan terdekat
- LR: Maksimalkan probabilitas kelas posterior
Mari kita pertimbangkan ruang fitur linear untuk SVM dan LR.
Beberapa perbedaan yang saya tahu sudah:
- SVM bersifat deterministik (tetapi kita dapat menggunakan model Platts untuk skor probabilitas) sedangkan LR bersifat probabilistik.
- Untuk ruang kernel, SVM lebih cepat (menyimpan vektor pendukung saja)
regression
logistic
svm
optimization
pengguna41799
sumber
sumber
Jawaban:
SVM linier dan regresi logistik umumnya bekerja sebanding dalam praktiknya. Gunakan SVM dengan kernel nonlinier jika Anda memiliki alasan untuk percaya bahwa data Anda tidak akan dapat dipisahkan secara linear (atau Anda harus lebih kuat untuk pencilan daripada yang biasanya ditoleransi oleh LR). Jika tidak, coba saja regresi logistik terlebih dahulu dan lihat bagaimana Anda melakukannya dengan model yang lebih sederhana itu. Jika regresi logistik gagal Anda, coba SVM dengan kernel non-linear seperti RBF.
EDIT:
Ok, mari kita bicara tentang dari mana fungsi tujuan berasal.
Regresi logistik berasal dari regresi linier umum. Diskusi yang baik tentang fungsi tujuan regresi logistik dalam konteks ini dapat ditemukan di sini: https://stats.stackexchange.com/a/29326/8451
Algoritma Support Vector Machines jauh lebih termotivasi secara geometris . Alih-alih mengasumsikan model probabilistik, kami mencoba untuk menemukan hyperplane pemisah optimal tertentu, di mana kami mendefinisikan "optimalitas" dalam konteks vektor dukungan. Kami tidak memiliki apa pun yang menyerupai model statistik yang kami gunakan dalam regresi logistik di sini, meskipun kasus linier akan memberikan hasil yang sama: sungguh ini hanya berarti bahwa regresi logistik melakukan pekerjaan yang cukup baik untuk menghasilkan pengklasifikasi "margin lebar", karena itulah semua SVM coba lakukan (khususnya, SVM mencoba untuk "memaksimalkan" margin antara kelas-kelas).
Saya akan mencoba untuk kembali ke ini nanti dan mendapatkan sedikit lebih dalam ke gulma, saya hanya semacam di tengah sesuatu: p
sumber
Gambar menandakan perbedaan antara SVM dan Regresi Logistik dan di mana harus menggunakan metode mana
gambar ini berasal dari kursus coursera: "pembelajaran mesin" oleh Andrew NG. Itu dapat ditemukan di minggu 7 di akhir: "Mendukung mesin vektor - menggunakan SVM"
sumber
Lihat Dukungan Mesin Vektor vs Regresi Logistik, University of Toronto CSC2515 oleh Kevin Swersky.
sumber