MCMC pengambilan sampel ruang pohon keputusan vs. hutan acak

11

Sebuah hutan random adalah kumpulan pohon keputusan dibentuk oleh acak memilih hanya fitur tertentu untuk membangun setiap pohon dengan (dan kadang-kadang mengantongi data training). Tampaknya mereka belajar dan menggeneralisasi dengan baik. Adakah yang melakukan pengambilan sampel MCMC pada ruang pohon keputusan atau membandingkannya dengan hutan acak? Saya tahu mungkin lebih mahal secara komputasi untuk menjalankan MCMC dan menyimpan semua pohon sampel, tetapi saya tertarik pada fitur teoritis dari model ini, bukan biaya komputasi. Maksud saya adalah sesuatu seperti ini:

Bangun pohon keputusan acak (Ini mungkin akan melakukan mengerikan)
Hitung kemungkinan pohon dengan sesuatu seperti , atau mungkin tambahkan istilah . $P(Tree|Data) \propto P(Data|Tree)$ $P_{prior}(Tree)$
Pilih langkah acak untuk mengubah pohon dan pilih berdasarkan kemungkinan . $P(Tree|Data)$
Setiap N langkah, simpan salinan pohon saat ini
Kembali ke 3 untuk beberapa kali N * M besar
Gunakan koleksi pohon M diselamatkan untuk melakukan prediksi

Apakah ini akan memberikan kinerja yang mirip dengan Hutan Acak? Perhatikan bahwa di sini kita tidak membuang data atau fitur yang baik pada langkah apa pun seperti hutan acak.

mcmc monte-carlo random-forest cart highBandWidth
sumber

2

Saya tidak yakin apakah ini persis seperti prosedur yang Anda sketsa, tetapi ada BART . Berikut tautan ke PDF

joran

9

Ini dilakukan sekitar 13 tahun yang lalu oleh Chapman, George dan McCulloch (1998, JASA) . Tentu saja ada literatur besar tentang pohon regresi Bayesian yang tumbuh dari ide ini.

Tugas
sumber

4

Sayangnya, Chipman et al. dalam pendekatan Bayesian CART mereka hanya mengekstrak pohon yang paling mungkin. Mereka tidak pernah mencoba rata-rata di atas pohon dan membandingkan kinerja dengan Random Forest dan Extra-Trees.

Saya baru saja membaca makalah BART dari Chipman. Jika saya mengerti dengan benar, ini adalah rata-rata Bayesian dari sampel K di atas kumpulan pohon m. Ini menarik dalam banyak hal dan tampaknya berkinerja sangat baik. Ketika m = '1', itu adalah Bayesian sederhana rata-rata sampel K dari 1 pohon, yang berasal dari posterior. Namun, tidak banyak tes yang dilakukan pada aspek tersebut. Dan saya masih tertarik untuk mengetahui bagaimana Random Forest atau Extra-Trees dibandingkan dengan model Bayes yang sebenarnya.

Alex
sumber

MCMC pengambilan sampel ruang pohon keputusan vs. hutan acak

Jawaban: