Cara memasukkan istilah interaksi dalam model hutan acak

9

Saya menggunakan fungsi randomForestdalam randomForestpaket R untuk melakukan regresi. Namun, ketika saya mencoba memasukkan istilah interaksi dalam kode berikut:

library(MASS)
library(randomForest)
Boston_f <- within(Boston, factor(rad))
mdl <- randomForest(lstat ~ rad * . , data = Boston_f)

Hasilnya mdl$termmemang termasuk interaksi, tetapi jika saya mengintip ke dalam pohon yang mdlmenggunakan,

getTree(mdl, 1, T)

Saya tidak dapat menemukan variabel terpecah menggunakan istilah interaksi.

Adakah yang tahu cara memasukkan istilah interaksi menggunakan randomForestatau fungsi lainnya?

Yifei Liu
sumber
1
Meskipun pertanyaan ini menanyakan tentang kode R, saya percaya ini dimotivasi oleh kesalahpahaman statistik / ML. Ketika itu ditangani, aspek spesifik kode R akan diperdebatkan. Karena itu, saya pikir ini harus tetap terbuka.
gung - Reinstate Monica
Pertanyaan semata-mata tentang cara kerja perangkat lunak di luar topik di sini, tetapi Anda mungkin memiliki pertanyaan statistik yang sebenarnya terkubur di sini. Anda mungkin ingin mengedit pertanyaan Anda untuk mengklarifikasi masalah statistik yang mendasarinya. Anda mungkin menemukan bahwa ketika Anda memahami konsep statistik yang terlibat, elemen spesifik perangkat lunak itu jelas atau setidaknya mudah diperoleh dari dokumentasi.
gung - Reinstate Monica

Jawaban:

12

Model berbasis pohon mempertimbangkan variabel secara berurutan, yang membuatnya berguna untuk mempertimbangkan interaksi tanpa menentukannya. Interaksi yang berguna untuk prediksi akan dengan mudah diambil dengan hutan yang cukup besar, sehingga tidak ada kebutuhan nyata untuk memasukkan istilah interaksi eksplisit.

Jika Anda yakin bahwa interaksi itu penting, Anda bisa secara manual membuat istilah interaksi (misalnya, mendefinisikan Anda formuladi dalam model.framefungsi, yang akan membuat kolom baru untuk istilah interaksi Anda). Namun dalam kasus Anda ini akan hampir dua kali lipat jumlah variabel, karena Anda membuat interaksi antara raddan setiap fitur lainnya, jadi itu mungkin keliru.

Lihat juga Termasuk Ketentuan Interaksi di Hutan Acak yang menunjukkan kemampuan inheren Hutan Acak untuk mendeteksi variabel yang berinteraksi dibandingkan dengan metode linear.

Michael Veale
sumber