Jangan bingung penanganan prediktor (melalui pelajar dasar, misalnya tunggul) dan penanganan fungsi kehilangan dalam meningkatkan. Meskipun AdaBoost dapat dianggap sebagai menemukan kombinasi pelajar dasar untuk meminimalkan kesalahan klasifikasi, makalah "Additive Logistic Regression" yang Anda kutipkan menunjukkan bahwa itu juga dapat diformulasikan untuk meminimalkan fungsi kerugian eksponensial. Wawasan ini membuka pendekatan peningkatan ke berbagai kelas masalah pembelajaran mesin yang meminimalkan fungsi kerugian yang dapat dibedakan, melalui peningkatan gradien . Residu yang sesuai pada setiap langkah adalah residu semu yang dihitung dari gradien fungsi kerugian. Bahkan jika prediktor dimodelkan sebagai tunggul biner, output dari model sehingga tidak perlu menjadi pilihan biner.
Seperti jawaban lain menyatakan, pembelajar berbasis linier mungkin tidak bekerja untuk meningkatkan, tetapi pembelajar berbasis linier tidak diperlukan untuk "peningkatan regresi" baik dalam pengertian standar maupun logistik. Jelas tunggul non-linear dapat dikombinasikan sebagai pelajar basis lambat untuk meminimalkan fungsi kerugian yang tepat. Itu masih disebut "boosted regression" walaupun itu jauh dari model regresi standar linear dalam koefisien dari para prediktor. Fungsi kerugian dapat secara fungsional sama untuk model linier dan model "boosted regression" dengan tunggul atau pohon sebagai prediktor. Bab 8 dari ISLR memperjelas hal ini.
Jadi, jika Anda menginginkan kemunduran logistik-setara dengan regresi yang disempurnakan, fokuslah pada fungsi kerugian alih-alih pada basis pembelajar. Itulah yang dilakukan oleh pendekatan LogitBoost dalam makalah yang Anda kutip: meminimalkan kerugian log daripada kerugian eksponensial yang tersirat dalam adaboost. Halaman AdaBoost Wikipedia menjelaskan perbedaan ini.
Banyak peserta di situs ini akan berpendapat bahwa prediksi berbasis peluang / probabilitas log lebih disukai daripada prediksi klasifikasi ya / tidak yang ketat, karena yang sebelumnya secara umum memungkinkan pengorbanan yang berbeda antara biaya tambahan prediksi palsu-positif dan palsu-negatif . Seperti yang ditunjukkan oleh jawaban untuk pertanyaan terkait Anda , dimungkinkan untuk memperoleh probabilitas yang diperkirakan dari penggolong kuat yang berasal dari AdaBoost, tetapi LogitBoost mungkin memberikan kinerja yang lebih baik.
Implementasi peningkatan gradien untuk klasifikasi dapat memberikan informasi tentang probabilitas yang mendasarinya. Sebagai contoh, halaman ini pada peningkatan gradien menunjukkan bagaimana sklearn
kode memungkinkan untuk pilihan antara kehilangan penyimpangan untuk regresi logistik dan kerugian eksponensial untuk AdaBoost, dan dokumen berfungsi untuk memprediksi probabilitas dari model yang didorong oleh gradien.
Sebenarnya kami memiliki pertanyaan yang sangat mirip di sini tentang kasus regresi. Dan kami mendapat jawaban yang sangat bagus dari @Matthew Drury
Gradient Boosting untuk Regresi Linier - mengapa tidak bekerja?
Model linear (seperti regresi logistik) tidak baik untuk meningkatkan. Alasannya adalah jika Anda menambahkan dua model linier bersama-sama, hasilnya adalah model linier lain. Di sisi lain, menambahkan dua tunggul keputusan atau pohon, akan memiliki model yang lebih rumit dan menarik (bukan pohon lagi.)
Detail dapat ditemukan di pos ini. Dalam tautan ini saya menurunkan mengapa menambahkan dua model linier tidak menarik. Dan saya menunjukkan efek meningkatkan pada iterasi putusan keputusan oleh iterasi.
Bagaimana cara kerja pembelajar berbasis linier dalam meningkatkan? Dan bagaimana cara kerjanya di perpustakaan xgboost?
Perhatikan bahwa, pohon keputusan / tunggul bukanlah "model linier" yang mirip dengan regresi logistik.
Lihat posting ini untuk detailnya
Apakah tunggul keputusan merupakan model linier?
sumber