48

Saya mencoba memahami perbedaan antara GBM & Adaboost.

Inilah yang saya mengerti sejauh ini:

Ada keduanya meningkatkan algoritma, yang belajar dari kesalahan model sebelumnya dan akhirnya membuat jumlah model tertimbang.
GBM dan Adaboost sangat mirip kecuali untuk fungsi kehilangannya.

Tapi tetap saja sulit bagi saya untuk mengambil ide perbedaan di antara mereka. Bisakah seseorang memberi saya penjelasan intuitif?

boosting gbm adaboost Hee Kyung Yoon
sumber

34

Saya menemukan pengantar ini dapat memberikan beberapa penjelasan intuitif.

Dalam Gradient Boosting, 'kekurangan' (dari peserta didik yang lemah) diidentifikasi oleh gradien .

Di Adaboost, 'kekurangan' diidentifikasi oleh titik data berbobot tinggi .

Dalam pemahaman saya, hilangnya Adaboost secara eksponensial memberikan bobot lebih untuk sampel yang lebih buruk. Bagaimanapun, Adaboost dianggap sebagai kasus khusus Gradient Boosting dalam hal fungsi kerugian, seperti yang ditunjukkan dalam sejarah Gradient Boosting yang disediakan dalam pendahuluan.

Ciptakan Adaboost, algoritma peningkatan yang berhasil pertama [Freund et al., 1996, Freund dan Schapire, 1997]

Merumuskan Adaboost sebagai gradient descent dengan fungsi kehilangan khusus [Breiman et al., 1998, Breiman, 1999]

Generalisasi Adaboost ke Gradient Boosting untuk menangani berbagai fungsi kerugian [Friedman et al., 2000, Friedman, 2001]

Randel
sumber

11

Penjelasan intuitif tentang algoritma AdaBoost

Biarkan saya membangun jawaban luar biasa @ Randel dengan ilustrasi poin berikut

Di Adaboost, 'kekurangan' diidentifikasi oleh titik data berbobot tinggi

Rekap AdaBoost

$G_m(x) \ m = 1,2,...,M$

G (x) = sign (α_{1} G_{1} (x) + α_{2} G_{2} (x) + . . . α_{M} G_{M} (x)) = sign (\sum_{m = 1}^{M} α_{m} G_{m} (x))

$G(x) = \text{sign} \left( \alpha_1 G_1(x) + \alpha_2 G_2(x) + ... \alpha_M G_M(x)\right) = \text{sign} \left( \sum_{m = 1}^M \alpha_m G_m(x)\right)$

Prediksi terakhir adalah kombinasi dari prediksi dari semua pengklasifikasi melalui suara terbobot mayoritas
$\alpha_m$ $G_m(x)$
$w_1, w_2,...,w_N$ $m$
$m=1$ $w_i = 1 / N$

AdaBoost pada contoh mainan

$M = 10$

Memvisualisasikan urutan peserta didik yang lemah dan bobot sampel

$m = 1,2...,6$

Iterasi pertama:

Batas keputusan sangat sederhana (linier) karena ini adalah kita pelajar
Semua poin memiliki ukuran yang sama, seperti yang diharapkan
6 titik biru berada di wilayah merah dan salah klasifikasi

Iterasi kedua:

Batas keputusan linear telah berubah
Poin biru yang sebelumnya salah diklasifikasikan sekarang lebih besar (sample_weight lebih besar) dan telah mempengaruhi batas keputusan
9 titik biru sekarang salah diklasifikasikan

Hasil akhir setelah 10 iterasi

$\alpha_m$

([1,041, 0,875, 0,837, 0,781, 1,04, 0,938 ...

Seperti yang diharapkan, iterasi pertama memiliki koefisien terbesar karena merupakan iterasi dengan kesalahan klasifikasi paling sedikit.

Langkah selanjutnya

Penjelasan intuitif peningkatan gradien - untuk diselesaikan

Sumber dan bacaan lebih lanjut:

kode python dan angka asli di sini
https://www.cs.cmu.edu/~aarti/Class/10701/slides/Lecture10.pdf

Xavier Bourret Sicotte
sumber

Penjelasan intuitif tentang perbedaan antara Gradient Boosting Trees (GBM) & Adaboost

Jawaban: