Apa perbedaan hutan acak ekstrem dengan hutan acak?

18

Apakah implementasi ER lebih efisien (mirip Extreme Gradient Boostingdengan peningkatan gradien) - apakah perbedaannya penting dari sudut pandang praktis? Ada paket R yang mengimplementasikannya. Apakah ini algoritma baru yang mengatasi implementasi "generik" (paket RandomForest dari R) tidak hanya dalam hal efisiensi atau juga di beberapa area lain?

Extreme Random Forest http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

Qbik
sumber

Jawaban:

20

Ini cukup sederhana - RF mengoptimalkan pemisahan pada pohon (yaitu memilih yang memberikan informasi terbaik sehubungan dengan keputusan) dan ERF membuatnya secara acak. Sekarang,

  • biaya optimasi (tidak banyak, tapi tetap saja), jadi ERF biasanya lebih cepat.
  • optimisasi dapat berkontribusi pada korelasi pohon dalam ansambel atau overfitting keseluruhan, sehingga ERF mungkin lebih kuat, terutama jika sinyalnya lemah.

Melangkah lebih jauh ke arah ini, Anda bisa mendapatkan kecepatan ekstra dengan menyamakan pemisahan pada setiap tingkat pohon, dengan cara ini mengubah pohon menjadi pakis , yang juga cukup menarik; ada implementasi R saya dari individuum tersebut.


sumber
Link yang rusak, penggunaan CVLAB: Pakis
smci
Saya kira pohon yang dibuat oleh ERF jauh lebih besar daripada RF, karena RF menggunakan optimisasi yang mengompresi pengetahuan dari dataset ke pohon yang lebih kecil
Qbik