Saya sedang melakukan regresi menggunakan Hutan Acak untuk memprediksi harga berdasarkan beberapa atribut. Kode ditulis dalam Python menggunakan Scikit-learn.
Bagaimana Anda memutuskan apakah Anda harus mengubah variabel Anda menggunakan exp
/ log
sebelum menggunakannya agar sesuai dengan model regresi? Apakah perlu ketika menggunakan pendekatan Ensemble seperti Hutan Acak?
Jawaban:
Cara Hutan Acak dibangun tidak berbeda dengan transformasi monotonik dari variabel independen. Perpecahan akan sepenuhnya analog. Jika Anda hanya membidik keakuratan Anda tidak akan melihat peningkatan di dalamnya. Faktanya, karena Random Forests dapat menemukan hubungan kompleks non-linear (Mengapa Anda memanggil regresi linier ini?) Dan interaksi variabel dengan cepat, jika Anda mengubah variabel independen Anda, Anda dapat menghaluskan informasi yang memungkinkan algoritma ini melakukan ini dengan benar.
Terkadang Hutan Acak tidak diperlakukan sebagai kotak hitam dan digunakan untuk inferensi. Misalnya, Anda dapat menginterpretasikan ukuran kepentingan variabel yang disediakannya, atau menghitung semacam efek marginal dari variabel independen Anda pada variabel dependen Anda. Ini biasanya divisualisasikan sebagai plot ketergantungan parsial. Saya cukup yakin hal terakhir ini sangat dipengaruhi oleh skala variabel, yang merupakan masalah ketika mencoba untuk mendapatkan informasi yang lebih deskriptif dari Random Forests. Dalam hal ini mungkin membantu Anda untuk mengubah variabel Anda (standar), yang bisa membuat plot ketergantungan parsial sebanding. Tidak sepenuhnya yakin tentang ini, harus memikirkannya.
Belum lama ini saya mencoba untuk memprediksi data penghitungan menggunakan Hutan Acak, mundur pada akar kuadrat dan log alami dari variabel dependen membantu sedikit, tidak banyak, dan tidak cukup untuk membiarkan saya menjaga model.
Beberapa paket tempat Anda dapat menggunakan hutan acak untuk menarik kesimpulan:
https://uc-r.github.io/lime
https://cran.r-project.org/web/packages/randomForestExplainer/index.html
https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html
sumber
Echoing @JEquihua, akurasi prediksi Random Forest tidak akan meningkat.
Perhatikan juga, jika Anda menyimpan prediktor asli dan prediktor yang diubah (seperti yang sering dilakukan dalam regresi linier), Anda dapat menyebabkan masalah. Itu karena RF secara acak memilih subset dari variabel untuk menumbuhkan setiap pohon, dan Anda pada dasarnya menempatkan variabel yang diubah menjadi dua kali. Jika itu adalah prediktor yang kuat, itu akan digunakan, dan hutan acak Anda tidak akan berkorelasi seperti sebelumnya, yang mengarah ke varian yang lebih tinggi.
sumber