Manakah fungsi biaya yang lebih baik untuk pohon hutan acak: Indeks atau entropi Gini?

12

Manakah fungsi biaya yang lebih baik untuk pohon hutan acak: Indeks atau entropi Gini?

Saya mencoba menerapkan hutan acak di Clojure.

Vivek
sumber

Jawaban:

9

Seperti yang saya temukan di Pengantar Penambangan Data oleh Tan et. Al:

Penelitian telah menunjukkan bahwa pilihan ukuran pengotor tidak banyak berpengaruh pada kinerja algoritma induksi pohon keputusan. Ini karena banyak langkah kenajisan yang cukup konsisten satu sama lain [...]. Memang, strategi yang digunakan untuk memangkas pohon memiliki dampak yang lebih besar pada pohon terakhir daripada pilihan ukuran pengotor.

Oleh karena itu, Anda dapat memilih untuk menggunakan indeks Gini seperti CART atau Entropy seperti C4.5.

Saya akan menggunakan Entropy, lebih khusus Rasio Keuntungan C4.5 karena Anda dapat dengan mudah mengikuti buku yang ditulis dengan baik oleh Quinlan: Program C4.5 untuk Pembelajaran Mesin.

Simone
sumber
3
Sedikit komentar - entropi menggunakan log, apa yang bisa menjadi masalah waktu komputasi.
8
Pernyataan itu tentang pohon keputusan murni, bukan hutan acak. Anda biasanya tidak memangkas pohon di hutan acak karena Anda tidak mencoba membangun pohon terbaik. Jadi sepertinya menyesatkan untuk berbicara tentang apa yang lebih penting: pemangkasan atau tindakan pengotor. Tujuannya adalah untuk menemukan pohon terbaik untuk digunakan dengan hutan acak.
Chan-Ho Suh