Dapatkah mesin peningkat gradien Friedman mencapai kinerja yang lebih baik daripada Hutan Acak Breiman ? Jika demikian, dalam kondisi apa atau jenis data apa yang dapat membuat gbm lebih baik?
machine-learning
data-mining
random-forest
boosting
pengguna22062
sumber
sumber
Jawaban:
Berikut ini memberikan penjelasan sesuai alasan mengapa Meningkatkan secara umum mengungguli Random Forest dalam praktiknya, tetapi saya akan sangat tertarik untuk mengetahui faktor-faktor lain mana yang dapat menjelaskan keunggulan Boosting di atas RF dalam pengaturan tertentu.
Di sisi lain, Meningkatkan mengurangi bias (dengan menambahkan setiap pohon baru dalam urutan sehingga apa yang terlewatkan oleh pohon sebelumnya ditangkap), tetapi juga varians (dengan menggabungkan banyak model).
Jadi, Meningkatkan mengurangi kesalahan di kedua front, sedangkan RF hanya dapat mengurangi kesalahan melalui pengurangan varians. Tentu saja, seperti yang saya katakan, mungkin ada penjelasan lain untuk meningkatkan kinerja Boosting yang diamati dalam praktek. Sebagai contoh, halaman 591 buku yang disebutkan di atas, dikatakan bahwa meningkatkan RF lebih baik dari masalah nested sphere karena dalam kasus tertentu batas keputusan sebenarnya adalah additive . (?) Mereka juga melaporkan bahwa Meningkatkan lebih baik daripada RF untuk data spam dan perumahan California.
Referensi lain yang menemukan Meningkatkan untuk mengungguli RF adalah Caruana dan Niculescu-Mizil 2006 . Sayangnya, mereka melaporkan hasilnya tetapi tidak mencoba menjelaskan apa yang menyebabkannya. Mereka membandingkan dua pengklasifikasi (dan banyak lagi) pada 11 masalah klasifikasi biner untuk 8 metrik kinerja yang berbeda.
sumber
Seperti yang dikatakan bayerj, tidak ada cara untuk mengetahui apriori!
Hutan Acak relatif mudah dikalibrasi: parameter default sebagian besar implementasi (R atau Python, misalnya) mencapai hasil yang luar biasa.
Di sisi lain, GBM sulit disetel (jumlah pohon yang terlalu banyak menyebabkan overfit, kedalaman maksimum sangat penting, tingkat pembelajaran dan jumlah pohon bekerja bersama ...) dan lebih lama untuk dilatih (implementasi multithreaded langka) . Penyetelan yang dilakukan secara longgar dapat menyebabkan kinerja rendah.
Namun, dari pengalaman saya, jika Anda menghabiskan cukup waktu untuk GBM, Anda cenderung mencapai kinerja yang lebih baik daripada hutan acak.
sumber
A loosely performed tuning may lead to dramatic performance?
Waspadalah terhadap salah tafsir, karena dalam bahasa Inggrisdramatic
berarti sangat baik, luar biasa, fenomenal, dll! Saya kira itu kebalikan dari apa yang ingin Anda katakan ... Selain itu, apakah Anda memiliki penjelasan seperti mengapa GBM yang disetel dengan hati-hati mengungguli RF? Ini pada dasarnya adalah pertanyaan ...