Dalam kondisi apa mesin pendorong gradien mengungguli hutan acak?

Dapatkah mesin peningkat gradien Friedman mencapai kinerja yang lebih baik daripada Hutan Acak Breiman ? Jika demikian, dalam kondisi apa atau jenis data apa yang dapat membuat gbm lebih baik?

machine-learning data-mining random-forest boosting pengguna22062
sumber

Tidak ada cara untuk memberi tahu apriori; Anda harus mencobanya.

bayerj

baik, dalam praktiknya, Meningkatkan hampir selalu mengungguli RF ... Meskipun saya tidak benar-benar tahu persis mengapa, saya pribadi tidak menemukan contoh di mana RF mengungguli Meningkatkan.

Antoine

@Antoine belajar dengan data tidak berlabel dan / atau label noise adalah salah satu kasus penggunaan yang sangat mengerikan untuk meningkatkan.

Marc Claesen

Baik, RF dan Boosting terutama digunakan untuk tugas-tugas pembelajaran yang diawasi, meskipun kadang-kadang memang benar bahwa RF dapat digunakan untuk pengelompokan. Adaboost tidak terlalu kuat untuk kesalahan label karena fungsi kerugian eksponensial yang sangat dipengaruhi oleh kebisingan, tetapi Stochastic Gradient Boosting dalam kasus umum (dengan penyimpangan multinomial misalnya) lebih kuat.

Antoine

@MarcClaesen, bisakah Anda melihat pertanyaan ini ?

Antoine

Jawaban:

Berikut ini memberikan penjelasan sesuai alasan mengapa Meningkatkan secara umum mengungguli Random Forest dalam praktiknya, tetapi saya akan sangat tertarik untuk mengetahui faktor-faktor lain mana yang dapat menjelaskan keunggulan Boosting di atas RF dalam pengaturan tertentu.

$error=bias+variance$

Di sisi lain, Meningkatkan mengurangi bias (dengan menambahkan setiap pohon baru dalam urutan sehingga apa yang terlewatkan oleh pohon sebelumnya ditangkap), tetapi juga varians (dengan menggabungkan banyak model).

Jadi, Meningkatkan mengurangi kesalahan di kedua front, sedangkan RF hanya dapat mengurangi kesalahan melalui pengurangan varians. Tentu saja, seperti yang saya katakan, mungkin ada penjelasan lain untuk meningkatkan kinerja Boosting yang diamati dalam praktek. Sebagai contoh, halaman 591 buku yang disebutkan di atas, dikatakan bahwa meningkatkan RF lebih baik dari masalah nested sphere karena dalam kasus tertentu batas keputusan sebenarnya adalah additive . (?) Mereka juga melaporkan bahwa Meningkatkan lebih baik daripada RF untuk data spam dan perumahan California.

Referensi lain yang menemukan Meningkatkan untuk mengungguli RF adalah Caruana dan Niculescu-Mizil 2006 . Sayangnya, mereka melaporkan hasilnya tetapi tidak mencoba menjelaskan apa yang menyebabkannya. Mereka membandingkan dua pengklasifikasi (dan banyak lagi) pada 11 masalah klasifikasi biner untuk 8 metrik kinerja yang berbeda.

Antoine
sumber

Seperti yang dikatakan bayerj, tidak ada cara untuk mengetahui apriori!

Hutan Acak relatif mudah dikalibrasi: parameter default sebagian besar implementasi (R atau Python, misalnya) mencapai hasil yang luar biasa.

Di sisi lain, GBM sulit disetel (jumlah pohon yang terlalu banyak menyebabkan overfit, kedalaman maksimum sangat penting, tingkat pembelajaran dan jumlah pohon bekerja bersama ...) dan lebih lama untuk dilatih (implementasi multithreaded langka) . Penyetelan yang dilakukan secara longgar dapat menyebabkan kinerja rendah.

Namun, dari pengalaman saya, jika Anda menghabiskan cukup waktu untuk GBM, Anda cenderung mencapai kinerja yang lebih baik daripada hutan acak.

$m$

RUser4512
sumber

A loosely performed tuning may lead to dramatic performance?Waspadalah terhadap salah tafsir, karena dalam bahasa Inggris dramaticberarti sangat baik, luar biasa, fenomenal, dll! Saya kira itu kebalikan dari apa yang ingin Anda katakan ... Selain itu, apakah Anda memiliki penjelasan seperti mengapa GBM yang disetel dengan hati-hati mengungguli RF? Ini pada dasarnya adalah pertanyaan ...

Antoine