Variabel kepentingan nilai-nilai negatif randomForest acak

10

Saya bertanya pada diri sendiri apakah itu ide yang baik untuk menghapus variabel-variabel dengan nilai penting variabel negatif ("% IncMSE") dalam konteks regresi. Dan apakah itu memberi saya prediksi yang lebih baik? Bagaimana menurut anda?

Giuseppe
sumber

Jawaban:

5

Variabel kepentingan dalam hutan Acak dihitung sebagai berikut:

  1. Awalnya, MSE model dihitung dengan variabel asli
  2. Kemudian, nilai-nilai kolom tunggal diijinkan dan MSE dihitung lagi. Misalnya, jika kolom (Col1) mengambil nilai 1,2,3,4, dan permutasi acak dari hasil nilai dalam 4,3,1,2. Ini menghasilkan MSE1. Kemudian peningkatan MSE, yaitu, MSE1 - MSE, akan menandakan pentingnya variabel.

  3. Kami mengharapkan perbedaan menjadi positif, tetapi dalam kasus angka negatif, ini menunjukkan bahwa permutasi acak bekerja lebih baik. Dapat disimpulkan bahwa variabel tidak memiliki peran dalam prediksi, yaitu tidak penting.

Semoga ini membantu!

Silakan merujuk ke tautan berikut untuk penjelasan terperinci!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean

Amol Modi
sumber
3

Ini mungkin hanya fluktuasi acak (misalnya jika Anda memiliki ntree kecil).

Jika tidak, ini mungkin menunjukkan bahwa Anda memiliki sejumlah paradoks dalam data Anda, yaitu pasangan objek dengan prediktor yang hampir identik dan hasil yang sangat berbeda. Dalam hal ini, saya akan memeriksa dua kali apakah model tersebut benar-benar masuk akal dan mulai berpikir bagaimana saya bisa mendapatkan lebih banyak atribut untuk menyelesaikannya.


sumber
2
Bisakah Anda sedikit menguraikan "paradoks dalam data" sedikit? Saya tidak cukup mengikuti dan ingin memahami apa yang Anda jelaskan.
JEquihua