Saat belajar tentang Peningkatan Gradien, saya belum pernah mendengar tentang kendala mengenai sifat-sifat "classifier lemah" yang digunakan metode untuk membangun dan membuat model ansambel. Namun, saya tidak bisa membayangkan aplikasi GB yang menggunakan regresi linier, dan sebenarnya ketika saya telah melakukan beberapa tes - tidak berhasil. Saya sedang menguji pendekatan yang paling standar dengan gradien jumlah residu kuadrat dan menambahkan model-model berikutnya bersama-sama.
Masalah yang jelas adalah bahwa residu dari model pertama diisi sedemikian rupa sehingga benar-benar tidak ada garis regresi yang cocok lagi. Pengamatan saya yang lain adalah bahwa sejumlah model regresi linier berikutnya dapat direpresentasikan sebagai model regresi tunggal juga (menambahkan semua intersep dan koefisien yang sesuai) jadi saya tidak dapat membayangkan bagaimana hal itu dapat meningkatkan model. Pengamatan terakhir adalah bahwa regresi linier (pendekatan paling umum) menggunakan jumlah residu kuadrat sebagai fungsi kerugian - sama dengan yang digunakan GB.
Saya juga berpikir tentang menurunkan tingkat pembelajaran atau hanya menggunakan subset prediktor untuk setiap iterasi, tapi itu masih bisa diringkas menjadi representasi model tunggal pada akhirnya, jadi saya kira itu tidak akan membawa perbaikan.
Apa yang kulewatkan di sini? Apakah regresi linier entah bagaimana tidak sesuai untuk digunakan dengan Gradient Boosting? Apakah karena regresi linier menggunakan jumlah residu kuadrat sebagai fungsi kerugian? Apakah ada kendala khusus pada prediktor yang lemah sehingga dapat diterapkan pada Peningkatan Gradien?
Jawaban:
Saya tidak berpikir Anda benar-benar kehilangan apapun!
Tampak bagi saya bahwa Anda memaku di sana, dan memberikan sketsa singkat bukti bahwa regresi linier hanya mengalahkan meningkatkan regresi linier dalam pengaturan ini.
Agar bertele-tele, kedua metode ini berusaha menyelesaikan masalah optimisasi berikut
Regresi linier hanya mengamati bahwa Anda dapat menyelesaikannya secara langsung, dengan menemukan solusi untuk persamaan linear
Setiap langkah ini dipilih untuk mengurangi jumlah kesalahan kuadrat. Tapi kita bisa menemukan jumlah minimum kesalahan kuadrat yang mungkin dalam bentuk fungsional ini dengan hanya melakukan regresi linier penuh untuk memulai.
Kemungkinan pembelaan untuk meningkatkan dalam situasi ini dapat berupa regularisasi implisit yang disediakannya. Mungkin (saya belum bermain dengan ini) Anda bisa menggunakan fitur penghentian awal dari penguat gradien, bersama dengan validasi silang, untuk menghentikan singkat dari regresi linier penuh. Ini akan memberikan regularisasi untuk regresi Anda, dan mungkin membantu overfitting. Ini tidak terlalu praktis, karena seseorang memiliki opsi yang sangat efisien dan dipahami dengan baik seperti regresi ridge dan jaring elastis dalam pengaturan ini.
Meningkatkan bersinar ketika tidak ada bentuk fungsional singkat di sekitar. Meningkatkan pohon keputusan memungkinkan bentuk fungsional dari regressor / classifier berevolusi secara perlahan agar sesuai dengan data, seringkali menghasilkan bentuk kompleks yang tidak dapat diimpikan oleh tangan dan mata. Ketika bentuk fungsional sederhana yang diinginkan, meningkatkan tidak akan membantu Anda menemukan itu (atau setidaknya mungkin cara yang agak tidak efisien untuk menemukannya).
sumber
Matriks proyeksi kuadrat terkecil diberikan oleh
Katakanlah Anda cocok dengan regresi dan selanjutnya Anda menghitung residu Anda
Ini berarti pendekatan sederhana untuk menyesuaikan regresi dan kemudian menyesuaikan regresi baru pada residu dari regresi pertama tidak akan menghasilkan sesuatu yang masuk akal karena X sama sekali tidak berkorelasi dengan e.
Saya menulis ini karena Anda mengatakan tidak ada benar-benar baris baru yang sesuai dengan derivasi di atas.
sumber