Kapan Harus Log / Exp Variabel Anda saat menggunakan Model Hutan Acak?

Saya sedang melakukan regresi menggunakan Hutan Acak untuk memprediksi harga berdasarkan beberapa atribut. Kode ditulis dalam Python menggunakan Scikit-learn.

Bagaimana Anda memutuskan apakah Anda harus mengubah variabel Anda menggunakan exp/ logsebelum menggunakannya agar sesuai dengan model regresi? Apakah perlu ketika menggunakan pendekatan Ensemble seperti Hutan Acak?

regression machine-learning predictive-models python random-forest Nyxynyx
sumber

kemungkinan duplikat Dalam regresi linier, kapan tepat menggunakan log variabel independen alih-alih nilai aktual?

user603

Saya pikir ini sedikit berbeda dari pertanyaan itu, karena aspek hutan / ansambel acak, tapi pertanyaannya mungkin bisa ditulis ulang setelah melihat posting lainnya.

Peter Flom - Reinstate Monica

@ PeterFlom dapatkah Anda membantu saya menulis ulang pertanyaan? Saya tidak cukup mahir dalam bidang ini :)

Nyxynyx

Cara kebanyakan orang menggunakan istilah "ensemble" RF adalah hanya 1 input potensial untuk sebuah ensemble.

Hack-R

Jawaban:

Cara Hutan Acak dibangun tidak berbeda dengan transformasi monotonik dari variabel independen. Perpecahan akan sepenuhnya analog. Jika Anda hanya membidik keakuratan Anda tidak akan melihat peningkatan di dalamnya. Faktanya, karena Random Forests dapat menemukan hubungan kompleks non-linear (Mengapa Anda memanggil regresi linier ini?) Dan interaksi variabel dengan cepat, jika Anda mengubah variabel independen Anda, Anda dapat menghaluskan informasi yang memungkinkan algoritma ini melakukan ini dengan benar.

Terkadang Hutan Acak tidak diperlakukan sebagai kotak hitam dan digunakan untuk inferensi. Misalnya, Anda dapat menginterpretasikan ukuran kepentingan variabel yang disediakannya, atau menghitung semacam efek marginal dari variabel independen Anda pada variabel dependen Anda. Ini biasanya divisualisasikan sebagai plot ketergantungan parsial. Saya cukup yakin hal terakhir ini sangat dipengaruhi oleh skala variabel, yang merupakan masalah ketika mencoba untuk mendapatkan informasi yang lebih deskriptif dari Random Forests. Dalam hal ini mungkin membantu Anda untuk mengubah variabel Anda (standar), yang bisa membuat plot ketergantungan parsial sebanding. Tidak sepenuhnya yakin tentang ini, harus memikirkannya.

Belum lama ini saya mencoba untuk memprediksi data penghitungan menggunakan Hutan Acak, mundur pada akar kuadrat dan log alami dari variabel dependen membantu sedikit, tidak banyak, dan tidak cukup untuk membiarkan saya menjaga model.

Beberapa paket tempat Anda dapat menggunakan hutan acak untuk menarik kesimpulan:

https://uc-r.github.io/lime

https://cran.r-project.org/web/packages/randomForestExplainer/index.html

https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html

JEquihua
sumber

Echoing @JEquihua, akurasi prediksi Random Forest tidak akan meningkat.

Perhatikan juga, jika Anda menyimpan prediktor asli dan prediktor yang diubah (seperti yang sering dilakukan dalam regresi linier), Anda dapat menyebabkan masalah. Itu karena RF secara acak memilih subset dari variabel untuk menumbuhkan setiap pohon, dan Anda pada dasarnya menempatkan variabel yang diubah menjadi dua kali. Jika itu adalah prediktor yang kuat, itu akan digunakan, dan hutan acak Anda tidak akan berkorelasi seperti sebelumnya, yang mengarah ke varian yang lebih tinggi.

Scott Kaiser
sumber

Memasukkan prediktor yang mengalami transformasi dan yang tidak ditransformasikan ke dalam model apa pun adalah ide yang buruk. Mereka sangat collinear dan pasti akan mengacaukan model Anda, apakah itu hutan acak atau regresi linier.

mkt - Reinstate Monica