Bagaimana saya bisa memasukkan efek acak (atau tindakan berulang) ke dalam randomForest

22

Saya bahkan tidak yakin bahwa pertanyaan itu masuk akal, tapi saya pikir saya melihat beberapa judul makalah di mana mereka mengusulkan hutan acak dengan efek acak. Apakah ini mungkin di R?

mguzmann
sumber
1
Ya, itu tidak masuk akal. Apa yang Anda maksud dengan efek acak?
Simone
Saya memikirkan sesuatu yang mirip dengan apa yang dapat Anda lakukan dengan fungsi lmer di mana Anda dapat memasukkan efek acak sebagai (1 | efek).
mguzmann
Jadi ini disimulasikan anil di hutan acak? econpapers.repec.org/article/bpjjqsprt/… researchgate.net/publication/…
EngrStudent
2
Saya tidak begitu yakin tentang keacakan seperti apa metode yang Anda cari di alamat. Hutan acak adalah peningkatan sederhana dari pengemasan dengan menghiasi pohon. Alasan mengapa itu disebut 'acak' adalah kenyataan bahwa pada setiap contoh, ketika perpecahan dianggap dalam pohon, kandidat perpecahan dipilih dari subset acak m dari prediktor p say. Biasanya, m ~ sqrt (p). Dan setiap kali perpecahan terjadi, subset prediktor acak dipilih karenanya, hutan acak.
psteelk

Jawaban:

13

Mereka tidak umum digunakan bersama-sama, dan harus diperhatikan sebelum menggabungkannya.

Hutan acak biasanya digunakan sebagai pengklasifikasi. Alasan Anda akan menggunakan hutan acak alih-alih metode lain (misalnya K-means clustering) adalah bahwa Anda mungkin memiliki banyak dimensi yang ingin Anda klasifikasikan. Masalah dengan jumlah dimensi yang besar adalah bahwa jika Anda ingin menguji semua kombinasi urutan dimensi, Anda akan memiliki sejumlah besar pilihan (itu tumbuh lebih cepat daripada jumlah dimensi faktorial).

Efek acak biasanya digunakan dalam regresi dengan tindakan berulang untuk hal yang sama. Mereka umumnya digunakan dalam model efek campuran di mana istilah campuran mengacu pada efek tetap dan acak. Efek tetap dianggap mewakili parameter yang akan Anda lihat lagi (misalnya obat atau usia seseorang). Efek acak dianggap mewakili contoh variabilitas di sekitar parameter yang tidak akan Anda lihat lagi (misalnya orang tertentu).

Ada contoh menggunakannya bersama-sama ketika ada data cluster http://dx.doi.org/10.1080/00949655.2012.741599 dan http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf .

Saya tidak mengetahui adanya paket R yang dapat melakukan analisis ini.

Bill Denney
sumber
2
Selain itu, penulis karya ini dengan senang hati membagikan kode R implementasi mereka dengan Anda. Kirimkan email saja kepada mereka. Itu yang saya lakukan.
Brash Equilibrium
Saya menghubungi Larocque, yang menghubungi Hajjam, yang mengirimi saya email dalam beberapa hari.
Brash Equilibrium
2
Peringatan adil, meskipun, kode R yang tersedia hanya mengimplementasikan hutan acak untuk data kontinu. Anda harus mengembangkannya untuk menangani data kategorikal.
Brash Equilibrium
10

Ya itu mungkin. Anda harus memeriksa " RE-EM Trees: Pendekatan Penambangan Data untuk Data Longitudinal dan Clustered ," dan paket R terkait REEMtree .

Sudah lama sejak saya melihat kertas. Saya ingat penulis belum mencoba membentuk ansambel pohon-pohon ini, tetapi tidak ada yang menyarankan itu tidak berhasil.

Ben Ogorek
sumber
1
REEMtree bukanlah efek acak yang diterapkan pada hutan acak. Ini diterapkan pada partisi rekursif, yang hanya merupakan bagian dari apa yang masuk ke dalam model hutan acak. Jadi saya tidak berpikir jawaban ini pantas mendapat skor lebih tinggi dari pada Bill Denney. Sayangnya, upvote saya di sana terkunci.
Brash Equilibrium
1
Ayo, begitu Anda dapat pohon itu, seberapa sulit membangun hutan? Dan sama-sama.
Ben Ogorek
1
Nah, melihat bagaimana hutan acak ditambahkan pada bootstrap sampling, menyetel jumlah fitur yang dipilih secara acak untuk dicoba, agregasi hasil pohon, dll, dan kita memerlukan efek acak pada prediksi hutan acak, bukan prediksi masing-masing pohon dalam hal itu. hutan, menambah REEMtree bukanlah solusi sebaik membaca artikel yang dikutip Bill dan meminta kode R dari penulisnya.
Brash Equilibrium
8

Efek Campuran Random Forests (MERFs) adalah suatu hal. Seperti yang dinyatakan di atas, ada beberapa penelitian hebat tentang mereka oleh kelompok Dr. Larocque di HEC Montreal. Makalahnya ada di sini: http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599 .

Pada dasarnya ini adalah cara yang logis secara teoritis untuk menggabungkan pemodelan non-linear hutan acak dengan efek acak linier.

Kami baru saja merilis paket open source dengan Python yang mengimplementasikan MERF menggunakan algoritma di atas di koran.

Kami menulis posting blog terperinci tentang paket dan bagaimana menggunakannya untuk kumpulan data yang dikelompokkan.

Sourav Dey
sumber
1
pemikiran untuk mengimplementasikan ini dalam R atau menambahkan fungsionalitas plot ketergantungan sebagian
OliverFishCode