Saya bertanya pada diri sendiri apakah itu ide yang baik untuk menghapus variabel-variabel dengan nilai penting variabel negatif ("% IncMSE") dalam konteks regresi. Dan apakah itu memberi saya prediksi yang lebih baik? Bagaimana menurut anda?
Saya bertanya pada diri sendiri apakah itu ide yang baik untuk menghapus variabel-variabel dengan nilai penting variabel negatif ("% IncMSE") dalam konteks regresi. Dan apakah itu memberi saya prediksi yang lebih baik? Bagaimana menurut anda?
Variabel kepentingan dalam hutan Acak dihitung sebagai berikut:
Kemudian, nilai-nilai kolom tunggal diijinkan dan MSE dihitung lagi. Misalnya, jika kolom (Col1) mengambil nilai 1,2,3,4, dan permutasi acak dari hasil nilai dalam 4,3,1,2. Ini menghasilkan MSE1. Kemudian peningkatan MSE, yaitu, MSE1 - MSE, akan menandakan pentingnya variabel.
Kami mengharapkan perbedaan menjadi positif, tetapi dalam kasus angka negatif, ini menunjukkan bahwa permutasi acak bekerja lebih baik. Dapat disimpulkan bahwa variabel tidak memiliki peran dalam prediksi, yaitu tidak penting.
Semoga ini membantu!
Silakan merujuk ke tautan berikut untuk penjelasan terperinci!
/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean
Ini mungkin hanya fluktuasi acak (misalnya jika Anda memiliki ntree kecil).
Jika tidak, ini mungkin menunjukkan bahwa Anda memiliki sejumlah paradoks dalam data Anda, yaitu pasangan objek dengan prediktor yang hampir identik dan hasil yang sangat berbeda. Dalam hal ini, saya akan memeriksa dua kali apakah model tersebut benar-benar masuk akal dan mulai berpikir bagaimana saya bisa mendapatkan lebih banyak atribut untuk menyelesaikannya.