Random Forests (RFs) adalah metode pemodelan / penambangan data kompetitif.
Model RF memiliki satu output - variabel output / prediksi.
Pendekatan naif untuk memodelkan banyak keluaran dengan RF adalah membangun RF untuk setiap variabel keluaran. Jadi kita memiliki N model independen, dan di mana ada korelasi antara variabel output kita akan memiliki struktur model redundan / duplikat. Ini bisa sangat boros, memang. Juga sebagai aturan umum lebih banyak variabel model menyiratkan lebih banyak model pakaian (kurang generalisasi). Tidak yakin apakah ini berlaku di sini, tetapi mungkin benar.
Pada prinsipnya kita bisa memiliki RF dengan banyak output. Variabel prediksi sekarang menjadi vektor (n-tuple). Node keputusan dalam setiap pohon keputusan sekarang memisahkan himpunan target / prediksi vektor berdasarkan vektor ambang, saya pikir ambang ini dianggap sebagai pesawat dalam ruang n-dimensi dan oleh karena itu kita dapat menentukan sisi ambang yang mana vektor masing-masing vektor target aktif.
Nilai prediksi optimal untuk setiap sisi dari pemisahan keputusan adalah rata-rata (centroid) yang dihitung untuk vektor di setiap sisi.
Menemukan titik pemisahan optimal ketika bekerja dengan variabel tunggal sepele dan cepat / efisien secara komputasi. Untuk n-tupel kita tidak dapat menemukan pemisahan optimal (atau setidaknya menjadi tidak layak secara komputasi ketika N meningkat), tetapi kita mungkin dapat menemukan pemecahan optimal dekat menggunakan metode jenis Monte Carlo (atau hibrida Monte Carlo dan lokal traversal gradien).
Apakah ini akan berhasil? Yaitu, apakah itu hanya memetakan pasangan pelatihan tanpa generalisasi? Apakah teknik ini sudah ada dengan nama yang berbeda?
Anda mungkin juga ingin mempertimbangkan bagaimana ini berhubungan dengan jaring saraf seperti Restricted Boltzmann Machines (RBMs) dan Deep Belief Networks.
Jawaban:
Beberapa pohon keputusan keluaran (dan karenanya, hutan acak) telah dikembangkan dan dipublikasikan. Pierre Guertz mendistribusikan paket untuk ini ( unduh). Lihat juga Segal & Xiao, Hutan acak multivarian, WIREs Data Mining Knowl Discov 2011 1 80–87, DOI: 10.1002 / widm.12 Saya percaya versi terbaru Scikit-learn juga mendukung ini. Tinjauan yang baik tentang keadaan seni dapat ditemukan dalam tesis oleh Henrik Linusson berjudul "MULTI-OUTPUT RANDOM FORESTS". Metode paling sederhana untuk membuat pilihan split di setiap node adalah memilih secara acak SATU dari variabel output dan kemudian mengikuti pendekatan hutan acak yang biasa untuk memilih split. Metode lain yang didasarkan pada jumlah bobot dari skor informasi timbal balik sehubungan dengan setiap fitur input dan variabel output telah dikembangkan, tetapi mereka cukup mahal dibandingkan dengan pendekatan acak.
sumber
Seperti yang dinyatakan di sini :
Dan itu termasuk Hutan Acak.
Juga halaman: http://scikit-learn.org/stable/modules/tree.html#tree-multioutput memiliki banyak referensi tentang topik itu.
sumber