Perbedaan antara regresi logistik dan mesin vektor dukungan?

14

Saya tahu bahwa regresi logistik menemukan hyperplane yang memisahkan sampel pelatihan. Saya juga tahu bahwa mesin Dukungan vektor menemukan hyperplane dengan margin maksimum.

Pertanyaan saya: apakah perbedaan kemudian antara regresi logistik (LR) dan mesin vektor dukungan (SVM) adalah bahwa LR menemukan hyperplane yang memisahkan sampel pelatihan sementara SVM menemukan hyperplane dengan margin maksimum? Atau saya salah?

Catatan: ingat bahwa dalam LR ketika maka fungsi logistik memberikan . Jika kita menganggap sebagai ambang klasifikasi, maka adalah hyperplane atau batas keputusan.θx=00,50,5θx=0

Jack Twain
sumber

Jawaban:

8

Anda benar jika Anda berbicara tentang SVM keras dan dua kelas dipisahkan secara linear. LR menemukan solusi apa pun yang memisahkan kedua kelas. Hard SVM menemukan solusi "the" di antara semua kemungkinan yang memiliki margin maksimum.

Dalam hal SVM lunak dan kelas tidak dipisahkan secara linier, Anda masih benar dengan sedikit modifikasi. Kesalahan tidak bisa menjadi nol. LR menemukan hyperplane yang sesuai dengan minimalisasi beberapa kesalahan. Soft SVM mencoba meminimalkan kesalahan (kesalahan lain) dan pada saat yang sama menukar kesalahan itu dengan margin melalui parameter regularisasi.

Satu perbedaan antara keduanya: SVM adalah klasifikasi keras tetapi LR adalah probabilitas. SVM jarang. Ini memilih vektor dukungan (dari sampel pelatihan) yang memiliki kekuatan paling diskriminatif antara kedua kelas. Karena tidak mempertahankan poin pelatihan lain di luar itu pada waktu ujian, kami tidak memiliki ide tentang distribusi salah satu dari dua kelas.

Saya telah menjelaskan bagaimana solusi LR (menggunakan IRLS) rusak jika terpisah secara linier dari dua kelas dan mengapa berhenti menjadi penggolong probabilistik dalam kasus seperti itu: /stats//a/133292/66491

Seeda
sumber
3
Apa jenis kuadrat terkecil yang dioptimalkan oleh regresi logistik? LR menggunakan cross-entropy sebagai kerugian.
Artem Sobolev
1
hanya karena regresi logistik menggunakan IRLS itu tidak berarti itu kuadrat terkecil - reweighting di IRLS adalah fungsi dari estimasi parameter saat ini, membuat fungsi aktual yang dioptimalkan sangat berbeda dari kuadrat terkecil.
Glen_b -Reinstate Monica
meringkas, SVM adalah varian LR yang ditingkatkan, karena ia menemukan hyperplane dengan margin maksimum sementara LR hanya menemukan hyperplane (semacam berbicara acak?). Apakah Anda setuju dengan ringkasan ini?
LandonZeKepitelOfGreytBritn