Apakah Hutan Acak dengan beberapa hasil mungkin / praktis?

17
  1. Random Forests (RFs) adalah metode pemodelan / penambangan data kompetitif.

  2. Model RF memiliki satu output - variabel output / prediksi.

  3. Pendekatan naif untuk memodelkan banyak keluaran dengan RF adalah membangun RF untuk setiap variabel keluaran. Jadi kita memiliki N model independen, dan di mana ada korelasi antara variabel output kita akan memiliki struktur model redundan / duplikat. Ini bisa sangat boros, memang. Juga sebagai aturan umum lebih banyak variabel model menyiratkan lebih banyak model pakaian (kurang generalisasi). Tidak yakin apakah ini berlaku di sini, tetapi mungkin benar.

Pada prinsipnya kita bisa memiliki RF dengan banyak output. Variabel prediksi sekarang menjadi vektor (n-tuple). Node keputusan dalam setiap pohon keputusan sekarang memisahkan himpunan target / prediksi vektor berdasarkan vektor ambang, saya pikir ambang ini dianggap sebagai pesawat dalam ruang n-dimensi dan oleh karena itu kita dapat menentukan sisi ambang yang mana vektor masing-masing vektor target aktif.

Nilai prediksi optimal untuk setiap sisi dari pemisahan keputusan adalah rata-rata (centroid) yang dihitung untuk vektor di setiap sisi.

Menemukan titik pemisahan optimal ketika bekerja dengan variabel tunggal sepele dan cepat / efisien secara komputasi. Untuk n-tupel kita tidak dapat menemukan pemisahan optimal (atau setidaknya menjadi tidak layak secara komputasi ketika N meningkat), tetapi kita mungkin dapat menemukan pemecahan optimal dekat menggunakan metode jenis Monte Carlo (atau hibrida Monte Carlo dan lokal traversal gradien).

Apakah ini akan berhasil? Yaitu, apakah itu hanya memetakan pasangan pelatihan tanpa generalisasi? Apakah teknik ini sudah ada dengan nama yang berbeda?

Anda mungkin juga ingin mempertimbangkan bagaimana ini berhubungan dengan jaring saraf seperti Restricted Boltzmann Machines (RBMs) dan Deep Belief Networks.

redcalx
sumber
Googling "multilabel random forest" menunjukkan ini telah dilakukan dengan beberapa cara berbeda; Lagi pula, saya telah bermain dengan pendekatan banyak-biner-rf dalam pengambilan informasi musik dan itu berjalan cukup baik.
1
Saya akan menyarankan Anda artikel ini . Mereka melakukan sesuatu yang sangat dekat dengan apa yang Anda gambarkan.
Dmitry Laptev
2
Ini sudah ada dalam paket partai dan beberapa paket lainnya (bahasa R).
Jase

Jawaban:

8

Beberapa pohon keputusan keluaran (dan karenanya, hutan acak) telah dikembangkan dan dipublikasikan. Pierre Guertz mendistribusikan paket untuk ini ( unduh). Lihat juga Segal & Xiao, Hutan acak multivarian, WIREs Data Mining Knowl Discov 2011 1 80–87, DOI: 10.1002 / widm.12 Saya percaya versi terbaru Scikit-learn juga mendukung ini. Tinjauan yang baik tentang keadaan seni dapat ditemukan dalam tesis oleh Henrik Linusson berjudul "MULTI-OUTPUT RANDOM FORESTS". Metode paling sederhana untuk membuat pilihan split di setiap node adalah memilih secara acak SATU dari variabel output dan kemudian mengikuti pendekatan hutan acak yang biasa untuk memilih split. Metode lain yang didasarkan pada jumlah bobot dari skor informasi timbal balik sehubungan dengan setiap fitur input dan variabel output telah dikembangkan, tetapi mereka cukup mahal dibandingkan dengan pendekatan acak.

Tom Dietterich
sumber
-1

Seperti yang dinyatakan di sini :

Semua pengklasifikasi di scikit-learn melakukan klasifikasi multiclass out-of-the-box.

Dan itu termasuk Hutan Acak.

Juga halaman: http://scikit-learn.org/stable/modules/tree.html#tree-multioutput memiliki banyak referensi tentang topik itu.

0asa
sumber
8
Untuk lebih jelas; pertanyaannya berkaitan dengan regresi multi- output .
redcalx
Maaf atas keterlambatan dalam balasan saya tetapi sepertinya scikit-learn menawarkan regresi multioutput juga, misalnya: scikit-learn.org/stable/auto_examples/tree/… Dan dalam hal apapun, ada strategi yang terdiri dari pemasangan satu regressor per target. Ini adalah strategi sederhana untuk memperluas regressor yang tidak mendukung regresi multi-target secara native: scikit-learn.org/stable/modules/generated/… HTH
0asa