Saya sebenarnya menulis implementasi Hutan Acak tapi saya yakin pertanyaannya khusus untuk pohon keputusan (terlepas dari RF).
Jadi konteksnya adalah bahwa saya membuat simpul di pohon keputusan dan kedua variabel prediksi dan target kontinu. Node memiliki ambang batas untuk membagi data menjadi dua set, dan saya membuat prediksi baru untuk setiap subset berdasarkan nilai target rata-rata di setiap set. Apakah ini pendekatan yang benar?
Alasan saya bertanya adalah bahwa ketika memprediksi variabel biner saya percaya pendekatan khas (benar?) Adalah untuk membagi data menjadi 0 dan 1 subset tanpa mengambil rata-rata atas baris data di setiap subset. Pemisahan berikutnya akan dibagi menjadi himpunan bagian berbutir halus dan mengambil rata-rata pada setiap hasil split pemisahan berikutnya (menurunkan pohon keputusan) beroperasi pada apa yang sekarang variabel kontinu daripada variabel biner (karena kita beroperasi pada nilai kesalahan residual daripada yang asli target).
Pertanyaan sampingan: Apakah perbedaan antara dua pendekatan (biner vs berkelanjutan) signifikan - atau akankah mereka benar-benar memberikan hasil yang identik untuk pohon keputusan yang lengkap?
sumber
Jawaban:
Salah satu masalah potensial dengan pohon adalah bahwa mereka cenderung kurang pas di bagian ekor. Pikirkan terminal node yang menangkap jangkauan rendah dari set pelatihan. Ini akan memprediksi menggunakan mean dari set point pelatihan tersebut, yang akan selalu meremehkan hasilnya (karena itu adalah mean).
Anda dapat mencoba membuat model pohon [1]. Ini akan cocok dengan model linear di terminal node dan (saya pikir) melakukan pekerjaan yang lebih baik daripada pohon regresi. Lebih baik lagi, gunakan versi yang lebih berkembang yang disebut Cubist yang menggabungkan berbagai pendekatan ([1] dan [2] di bawah).
Model-model ini juga menangani prediktor kontinu dan diskrit berbeda. Mereka dapat melakukan pemisahan multi-arah untuk variabel kategori. Kriteria pemisahan sangat mirip dengan pohon CART.
Model tree dapat ditemukan di R dalam paket RWeka (disebut 'M5P') dan Cubist ada dalam paket Cubist. Tentu saja, Anda dapat menggunakan Weka juga dan Cubist memiliki versi C yang tersedia di situs web RuleQuest.
[1] Quinlan, J. (1992). Belajar dengan kelas berkelanjutan. Prosiding Konferensi Gabungan Australia Ke-5 tentang Kecerdasan Buatan, 343–348.
[2] Quinlan, J. (1993). Menggabungkan pembelajaran berbasis contoh dan berbasis model. Prosiding Konferensi Internasional Kesepuluh tentang Pembelajaran Mesin, 236–243.
sumber