% IncMSE adalah ukuran paling kuat dan informatif. Ini adalah peningkatan dalam prediksi (diperkirakan dengan out-of-bag-CV) sebagai akibat dari variabel j yang diijinkan (nilai acak dikocok).
- menumbuhkan hutan regresi. Hitung OOB-mse, beri nama mse0 ini.
- for 1 to j var: nilai permutasi kolom j, lalu prediksi dan hitung OOB-mse (j)
- % IncMSE dari j'th adalah (mse (j) -mse0) / mse0 * 100%
semakin tinggi angkanya, semakin penting
IncNodePurity berkaitan dengan fungsi kerugian yang dipilih dengan pemisahan terbaik. Fungsi kerugian adalah mse untuk regresi dan gini-pengotor untuk klasifikasi. Variabel yang lebih berguna mencapai peningkatan kemurnian simpul yang lebih tinggi, yaitu untuk menemukan pemisahan yang memiliki 'varians' antar node yang tinggi dan 'varians' intra node yang kecil. IncNodePurity bias dan hanya boleh digunakan jika waktu perhitungan ekstra untuk menghitung% IncMSE tidak dapat diterima. Karena hanya butuh ~ 5-25% waktu ekstra untuk menghitung% IncMSE, ini hampir tidak akan pernah terjadi.
Pertanyaan dan jawaban yang serupa
Soren Havelund Welling
sumber