Ukuran variabel penting dalam hutan acak

40

Saya telah bermain-main dengan hutan acak untuk regresi dan saya mengalami kesulitan mencari tahu apa arti dua ukuran penting itu, dan bagaimana mereka harus ditafsirkan.

The importance()Fungsi memberikan dua nilai untuk setiap variabel: %IncMSEdan IncNodePurity. Apakah ada interpretasi sederhana untuk 2 nilai ini?

Untuk IncNodePuritykhususnya, ini hanya jumlah peningkatan RSS berikut penghapusan variabel itu?

dcl
sumber
1
Sudahkah Anda melihat ?importance? Ada penjelasan di sana tentang apa arti kedua tindakan ...
Nick Sabbe
2
@Nick Sabbe, saya punya, dan saya mencoba untuk membungkus kepala saya di sekitar mereka. Saya bertanya-tanya apakah ada interpretasi intuitif yang bagus untuk mereka.
dcl

Jawaban:

42

Yang pertama dapat 'ditafsirkan' sebagai berikut: jika prediktor penting dalam model Anda saat ini, maka menetapkan nilai-nilai lain untuk prediktor itu secara acak tetapi 'realistis' (yaitu: membubuhkan nilai-nilai prediktor ini pada dataset Anda), harus memiliki pengaruh negatif pada prediksi, yaitu: menggunakan model yang sama untuk memprediksi dari data yang sama kecuali untuk satu variabel, harus memberikan prediksi yang lebih buruk.

Jadi, Anda mengambil ukuran prediktif (MSE) dengan dataset asli dan kemudian dengan dataset 'permutasi', dan Anda membandingkannya entah bagaimana. Satu cara, terutama karena kami berharap MSE asli selalu lebih kecil, perbedaan dapat diambil. Akhirnya, untuk membuat nilai-nilai sebanding dengan variabel, ini diskalakan.

Untuk yang kedua: di setiap pemisahan, Anda dapat menghitung berapa banyak pemisahan ini mengurangi ketidakmurnian simpul (untuk pohon regresi, memang, perbedaan antara RSS sebelum dan sesudah pemisahan). Ini dijumlahkan di atas semua pembagian untuk variabel itu, di atas semua pohon.

Catatan: bacaan yang baik adalah Elemen Pembelajaran Statistik oleh Hastie, Tibshirani dan Friedman ...

Nick Sabbe
sumber
3
Cheers, sebenarnya saya sudah buka buku itu sekarang :)
dcl
Apa artinya RSS?
DavideChicco.it
RSS adalah Jumlah Sisa Kuadrat
Barker
10

Metrik kepentingan Hutan Acak seperti yang diterapkan dalam paket randomForest di R memiliki kebiasaan di mana prediktor berkorelasi mendapatkan nilai kepentingan rendah.

http://bioinformatics.oxfordjournals.org/content/early/2010/04/12/12/bioinformatics.btq134.full.pdf

Saya memiliki implementasi modifikasi dari hutan acak di CRAN yang mengimplementasikan pendekatan mereka dalam memperkirakan nilai p empiris dan tingkat penemuan palsu, di sini

http://cran.r-project.org/web/packages/pRF/index.html

Ankur Chakravarthy
sumber
1
apakah ini menjelaskan perbedaan keluaran dari variabel penting jika Anda menggunakan randomForest dengan paket caret seperti caret::train(method="rf", importance = TRUE, ...)??
Agile Bean