Perbedaan antara Hutan Acak dan Pohon Yang Sangat Acak

40

Saya mengerti bahwa Hutan Acak dan Pohon Acak Sangat berbeda dalam arti bahwa pemisahan pohon di Hutan Acak bersifat deterministik sedangkan mereka acak dalam kasus Pohon Acak Sangat Acak (lebih tepatnya, pembelahan berikutnya adalah pemecahan terbaik di antara pemisahan seragam acak dalam variabel yang dipilih untuk pohon saat ini). Tetapi saya tidak sepenuhnya memahami dampak dari perbedaan yang berbeda ini dalam berbagai situasi.

  • Bagaimana mereka membandingkan dalam hal bias / varians?
  • Bagaimana mereka membandingkan di hadapan variabel yang tidak relevan?
  • Bagaimana mereka membandingkan di hadapan variabel berkorelasi?
RUser4512
sumber
2
(A) ERT kadang-kadang bisa lebih bias karena perpecahan kurang optimal / ERT kadang-kadang akan mengurangi varians karena dekorasi pohon lebih lanjut; (B) Saya kira sama, tidak yakin; (c) Saya kira sama, tidak yakin. Ekstra: Saya tidak akan menyebut pemisahan RF deterministik karena pengambilan sampel variabel acak, dan pohon tentu saja bukan karena bootstrap.
Soren Havelund Welling
Apa itu uniform split?
oktavan

Jawaban:

28

The ekstra (Acak) -Trees (ET) Artikel berisi analisis bias-varians. Pada halaman 16 Anda dapat melihat perbandingan dengan beberapa metode termasuk RF pada enam tes (klasifikasi pohon dan tiga regresi).

Kedua metode hampir sama, dengan ET menjadi sedikit lebih buruk ketika ada sejumlah besar fitur bising (dalam set data dimensi tinggi).

Yang mengatakan, asalkan pemilihan fitur (mungkin manual) hampir optimal, kinerjanya hampir sama, namun, ET dapat komputasi lebih cepat.

Dari artikel itu sendiri:

Analisis algoritma dan penentuan nilai optimal K pada beberapa varian masalah pengujian menunjukkan bahwa nilai tersebut pada prinsipnya bergantung pada masalah spesifik, khususnya proporsi atribut yang tidak relevan . [...] Analisis bias / varians menunjukkan bahwa Extra-Trees bekerja dengan mengurangi varians sementara pada saat yang sama meningkatkan bias . [...] Ketika pengacakan ditingkatkan di atas tingkat optimal, varians sedikit menurun sementara bias meningkat sering secara signifikan.

Tidak ada peluru perak seperti biasa.


Pierre Geurts, Damien Ernst, Louis Wehenke. "Pohon yang sangat acak"

shuriken x blue
sumber
3
Adakah referensi (baik empiris atau teori) tentang ET yang sedikit lebih buruk ketika ada banyak fitur bising? Atau ini berdasarkan pengalaman?
Ramhiser
1
Dalam pengalaman saya, yang terjadi adalah sebaliknya: Extra-Trees lebih baik dengan banyak fitur berisik. Dengan peringatan bahwa Anda harus memiliki hutan besar (banyak penaksir, n_estimator di sklearn) dan selaraskan jumlah fitur yang dipertimbangkan pada setiap split (max_features in sklearn) agar ini berfungsi. Satu Extra-Tree akan lebih dari sekadar satu pohon hutan acak tetapi jika Anda memiliki banyak Extra-Tree mereka akan cenderung berpakaian dengan cara yang berbeda dan tidak berpakaian. Saya sering mendapatkan peningkatan besar hingga 3000 penduga.
denson
Seperti @ramhiser tunjukkan, ET tampaknya menjaga kinerja yang lebih tinggi di hadapan fitur-fitur berisik. Bisakah Anda menambahkan beberapa referensi ke jawaban Anda?
Goncalo Peres mendukung Monica
3

Jawabannya adalah itu tergantung. Saya sarankan Anda mencoba hutan acak dan pohon tambahan pada masalah Anda. Coba hutan besar (1000 - 3000 pohon / penaksir, n_estimator di sklearn) dan sesuaikan jumlah fitur yang dipertimbangkan pada setiap split (max_features in sklearn) serta sampel minimum per split (min_samples_split di sklearn) dan kedalaman pohon maksimum ( max_depth di sklearn). Yang mengatakan, Anda harus diingat bahwa over tuning bisa menjadi bentuk overfitting.

Berikut adalah dua masalah yang saya kerjakan secara pribadi di mana pohon tambahan terbukti bermanfaat dengan data yang sangat bising:

Hutan keputusan untuk klasifikasi pembelajaran mesin dari set fitur dasar laut yang besar dan bising

Prediksi kelainan protein terdistribusi yang efisien dengan sampel yang disisipkan

denson
sumber
2

Terima kasih banyak atas jawabannya! Karena saya masih memiliki pertanyaan, saya melakukan beberapa simulasi numerik untuk mendapatkan lebih banyak wawasan tentang perilaku kedua metode ini.

  • Pohon tambahan tampaknya menjaga kinerja yang lebih tinggi di hadapan fitur yang bising.

Gambar di bawah ini menunjukkan kinerja (dievaluasi dengan validasi silang) sebagai kolom acak yang tidak relevan dengan target ditambahkan ke dataset. Targetnya hanya kombinasi linear dari tiga kolom pertama. hutan acak vs pohon tambahan di hadapan variabel yang tidak relevan

  • Ketika semua variabel relevan, kedua metode tampaknya mencapai kinerja yang sama,

  • Pohon tambahan tampak tiga kali lebih cepat daripada hutan acak (setidaknya, dalam scikit belajar implementasi)

Sumber

Tautan ke artikel lengkap: hutan acak vs pohon tambahan .

RUser4512
sumber
Dari artikel Anda yang ditautkan: "Biru disajikan hasil dari hutan acak dan merah untuk pohon tambahan."
tomsv