Saat ini saya sedang belajar sendiri bagaimana melakukan klasifikasi, dan secara khusus saya melihat tiga metode: mendukung mesin vektor, jaringan saraf, dan regresi logistik. Apa yang saya coba pahami adalah mengapa regresi logistik akan berkinerja lebih baik daripada dua lainnya.
Dari pemahaman saya tentang regresi logistik, idenya adalah untuk mencocokkan fungsi logistik dengan seluruh data. Jadi jika data saya adalah biner, semua data saya dengan label 0 harus dipetakan dengan nilai 0 (atau dekat dengan itu), dan semua data saya dengan nilai 1 harus dipetakan ke nilai 1 (atau dekat dengan itu). Sekarang, karena fungsi logistik kontinu dan lancar, melakukan regresi ini membutuhkan semua data saya agar sesuai dengan kurva; tidak ada kepentingan yang lebih besar diterapkan pada titik data di dekat batas keputusan, dan semua titik data berkontribusi terhadap kerugian dengan jumlah yang berbeda.
Namun, dengan mesin vektor dukungan dan jaringan saraf, hanya titik-titik data di dekat batas keputusan yang penting; selama titik data tetap berada di sisi yang sama dari batas keputusan, itu akan berkontribusi kerugian yang sama.
Oleh karena itu, mengapa regresi logistik akan pernah mengungguli mesin vektor dukungan atau jaringan saraf, mengingat bahwa "membuang-buang sumber daya" pada upaya menyesuaikan kurva dengan banyak data yang tidak penting (mudah diklasifikasikan), daripada hanya berfokus pada data sulit di sekitar keputusan batas?
Jawaban:
Sumber daya yang Anda anggap "terbuang" sebenarnya adalah informasi yang diperoleh dari regresi logistik. Anda mulai dengan premis yang salah. Regresi logistik bukan penggolong. Ini adalah penaksir probabilitas / risiko. Tidak seperti SVM, ini memungkinkan dan mengharapkan "panggilan dekat". Ini akan mengarah pada pengambilan keputusan yang optimal karena tidak mencoba mengelabui sinyal prediksi ke dalam menggabungkan fungsi utilitas yang tersirat setiap kali Anda mengklasifikasikan pengamatan. Tujuan dari regresi logistik menggunakan estimasi kemungkinan maksimum adalah untuk memberikan estimasi Prob yang optimal . Hasilnya digunakan dalam banyak cara, misalnya kurva angkat, penilaian risiko kredit, dll. Lihat buku Nate Silver, Signal and the Noise untuk argumen menarik yang mendukung alasan probabilistik.( Y= 1 | X)
Perhatikan bahwa variabel dependen dalam regresi logistik dapat dikodekan dengan cara apa pun yang Anda inginkan: 0/1, A / B, ya / tidak, dll.Y
Asumsi utama regresi logistik adalah bahwa benar-benar biner, misalnya tidak dibuat dari variabel respon ordinal atau kontinu yang mendasarinya. Ini, seperti metode klasifikasi, adalah untuk fenomena yang benar-benar semua atau tidak sama sekali.Y
Beberapa analis berpikir bahwa regresi logistik mengasumsikan linearitas efek prediksi pada skala peluang log. Itu hanya benar ketika DR Cox menemukan model logistik pada tahun 1958 pada saat komputasi tidak tersedia untuk memperluas model dengan menggunakan alat-alat seperti regresi splines. Satu-satunya kelemahan nyata dalam regresi logistik adalah Anda harus menentukan interaksi mana yang ingin Anda izinkan dalam model. Untuk sebagian besar dataset, ini berubah menjadi kekuatan karena efek utama aditif umumnya merupakan prediktor yang jauh lebih kuat daripada interaksi, dan metode pembelajaran mesin yang memberikan prioritas yang sama untuk interaksi dapat menjadi tidak stabil, sulit ditafsirkan, dan memerlukan ukuran sampel yang lebih besar daripada regresi logistik untuk memprediksi baik.
sumber
Anda benar, seringkali regresi logistik buruk sebagai penggolong (terutama bila dibandingkan dengan algoritma lain). Namun, ini tidak berarti regresi logistik harus dilupakan dan tidak pernah dipelajari karena memiliki dua keuntungan besar:
Hasil probabilistik. Frank Harrell (+1) menjelaskan ini dengan sangat baik dalam jawabannya.
sumber