Di hutan acak, apakah% IncMSE lebih besar lebih baik atau lebih buruk?

17

Setelah saya membangun model hutan acak (regresi) dalam R, panggilan rf$importancememberi saya dua ukuran untuk setiap variabel prediktor, %IncMSEdan IncNodePurity. Apakah interpretasi bahwa variabel prediktor dengan %IncMSEnilai yang lebih kecil lebih penting daripada variabel prediktor dengan %IncMSEnilai yang lebih besar ?

Bagaimana dengan untuk IncNodePurity?

derNincompoop
sumber

Jawaban:

30

% IncMSE adalah ukuran paling kuat dan informatif. Ini adalah peningkatan dalam prediksi (diperkirakan dengan out-of-bag-CV) sebagai akibat dari variabel j yang diijinkan (nilai acak dikocok).

  1. menumbuhkan hutan regresi. Hitung OOB-mse, beri nama mse0 ini.
  2. for 1 to j var: nilai permutasi kolom j, lalu prediksi dan hitung OOB-mse (j)
  3. % IncMSE dari j'th adalah (mse (j) -mse0) / mse0 * 100%

semakin tinggi angkanya, semakin penting

IncNodePurity berkaitan dengan fungsi kerugian yang dipilih dengan pemisahan terbaik. Fungsi kerugian adalah mse untuk regresi dan gini-pengotor untuk klasifikasi. Variabel yang lebih berguna mencapai peningkatan kemurnian simpul yang lebih tinggi, yaitu untuk menemukan pemisahan yang memiliki 'varians' antar node yang tinggi dan 'varians' intra node yang kecil. IncNodePurity bias dan hanya boleh digunakan jika waktu perhitungan ekstra untuk menghitung% IncMSE tidak dapat diterima. Karena hanya butuh ~ 5-25% waktu ekstra untuk menghitung% IncMSE, ini hampir tidak akan pernah terjadi.

Pertanyaan dan jawaban yang serupa

Soren Havelund Welling
sumber