Saya mengerti bahwa Hutan Acak dan Pohon Acak Sangat berbeda dalam arti bahwa pemisahan pohon di Hutan Acak bersifat deterministik sedangkan mereka acak dalam kasus Pohon Acak Sangat Acak (lebih tepatnya, pembelahan berikutnya adalah pemecahan terbaik di antara pemisahan seragam acak dalam variabel yang dipilih untuk pohon saat ini). Tetapi saya tidak sepenuhnya memahami dampak dari perbedaan yang berbeda ini dalam berbagai situasi.
- Bagaimana mereka membandingkan dalam hal bias / varians?
- Bagaimana mereka membandingkan di hadapan variabel yang tidak relevan?
- Bagaimana mereka membandingkan di hadapan variabel berkorelasi?
machine-learning
correlation
references
random-forest
RUser4512
sumber
sumber
uniform split
?Jawaban:
The ekstra (Acak) -Trees (ET) Artikel berisi analisis bias-varians. Pada halaman 16 Anda dapat melihat perbandingan dengan beberapa metode termasuk RF pada enam tes (klasifikasi pohon dan tiga regresi).
Kedua metode hampir sama, dengan ET menjadi sedikit lebih buruk ketika ada sejumlah besar fitur bising (dalam set data dimensi tinggi).
Yang mengatakan, asalkan pemilihan fitur (mungkin manual) hampir optimal, kinerjanya hampir sama, namun, ET dapat komputasi lebih cepat.
Dari artikel itu sendiri:
Tidak ada peluru perak seperti biasa.
Pierre Geurts, Damien Ernst, Louis Wehenke. "Pohon yang sangat acak"
sumber
Jawabannya adalah itu tergantung. Saya sarankan Anda mencoba hutan acak dan pohon tambahan pada masalah Anda. Coba hutan besar (1000 - 3000 pohon / penaksir, n_estimator di sklearn) dan sesuaikan jumlah fitur yang dipertimbangkan pada setiap split (max_features in sklearn) serta sampel minimum per split (min_samples_split di sklearn) dan kedalaman pohon maksimum ( max_depth di sklearn). Yang mengatakan, Anda harus diingat bahwa over tuning bisa menjadi bentuk overfitting.
Berikut adalah dua masalah yang saya kerjakan secara pribadi di mana pohon tambahan terbukti bermanfaat dengan data yang sangat bising:
Hutan keputusan untuk klasifikasi pembelajaran mesin dari set fitur dasar laut yang besar dan bising
Prediksi kelainan protein terdistribusi yang efisien dengan sampel yang disisipkan
sumber
Terima kasih banyak atas jawabannya! Karena saya masih memiliki pertanyaan, saya melakukan beberapa simulasi numerik untuk mendapatkan lebih banyak wawasan tentang perilaku kedua metode ini.
Gambar di bawah ini menunjukkan kinerja (dievaluasi dengan validasi silang) sebagai kolom acak yang tidak relevan dengan target ditambahkan ke dataset. Targetnya hanya kombinasi linear dari tiga kolom pertama.
Ketika semua variabel relevan, kedua metode tampaknya mencapai kinerja yang sama,
Pohon tambahan tampak tiga kali lebih cepat daripada hutan acak (setidaknya, dalam scikit belajar implementasi)
Sumber
Tautan ke artikel lengkap: hutan acak vs pohon tambahan .
sumber