Manakah fungsi biaya yang lebih baik untuk pohon hutan acak: Indeks atau entropi Gini?
Saya mencoba menerapkan hutan acak di Clojure.
Manakah fungsi biaya yang lebih baik untuk pohon hutan acak: Indeks atau entropi Gini?
Saya mencoba menerapkan hutan acak di Clojure.
Seperti yang saya temukan di Pengantar Penambangan Data oleh Tan et. Al:
Penelitian telah menunjukkan bahwa pilihan ukuran pengotor tidak banyak berpengaruh pada kinerja algoritma induksi pohon keputusan. Ini karena banyak langkah kenajisan yang cukup konsisten satu sama lain [...]. Memang, strategi yang digunakan untuk memangkas pohon memiliki dampak yang lebih besar pada pohon terakhir daripada pilihan ukuran pengotor.
Oleh karena itu, Anda dapat memilih untuk menggunakan indeks Gini seperti CART atau Entropy seperti C4.5.
Saya akan menggunakan Entropy, lebih khusus Rasio Keuntungan C4.5 karena Anda dapat dengan mudah mengikuti buku yang ditulis dengan baik oleh Quinlan: Program C4.5 untuk Pembelajaran Mesin.