Bagaimana seharusnya pemisahan pohon keputusan diimplementasikan ketika memprediksi variabel kontinu?

15

Saya sebenarnya menulis implementasi Hutan Acak tapi saya yakin pertanyaannya khusus untuk pohon keputusan (terlepas dari RF).

Jadi konteksnya adalah bahwa saya membuat simpul di pohon keputusan dan kedua variabel prediksi dan target kontinu. Node memiliki ambang batas untuk membagi data menjadi dua set, dan saya membuat prediksi baru untuk setiap subset berdasarkan nilai target rata-rata di setiap set. Apakah ini pendekatan yang benar?

Alasan saya bertanya adalah bahwa ketika memprediksi variabel biner saya percaya pendekatan khas (benar?) Adalah untuk membagi data menjadi 0 dan 1 subset tanpa mengambil rata-rata atas baris data di setiap subset. Pemisahan berikutnya akan dibagi menjadi himpunan bagian berbutir halus dan mengambil rata-rata pada setiap hasil split pemisahan berikutnya (menurunkan pohon keputusan) beroperasi pada apa yang sekarang variabel kontinu daripada variabel biner (karena kita beroperasi pada nilai kesalahan residual daripada yang asli target).

Pertanyaan sampingan: Apakah perbedaan antara dua pendekatan (biner vs berkelanjutan) signifikan - atau akankah mereka benar-benar memberikan hasil yang identik untuk pohon keputusan yang lengkap?

redcalx
sumber
1
Memisahkan variabel kontinu akan membuat "model" yang dihasilkan tidak sesuai dengan data. Jika Anda memiliki satu X kontinu dan satu Y kontinu, pertimbangkan untuk menggunakan lopar nonparametric yang lebih halus.
Frank Harrell
Masalah yang saya kerjakan saat ini memiliki banyak variabel prediktor (campuran kontinu dan biner) dan variabel target tunggal. Karenanya saya percaya RF adalah pendekatan yang masuk akal untuk dilakukan.
redcalx
2
Sangat mungkin begitu. Tetapi hutan acak adalah campuran pohon (bukan pohon keputusan), sehingga mendekati hubungan berkelanjutan dengan membuat banyak pemisahan, dan akibatnya, menggunakan penyusutan. Jadi saya tidak berpikir pertanyaan awal Anda berlaku, jika saya memahaminya.
Frank Harrell
Saya tergoda untuk mengatakan bahwa deskripsi Anda tentang kasus kontinu benar (yaitu cara standar dalam melakukan sesuatu), tetapi kemudian deskripsi Anda tentang kasus variabel biner tidak cocok sama sekali dengan pemahaman saya tentang bagaimana hutan acak (atau keputusan pohon) bekerja, jadi saya khawatir salah satu dari kita bingung.
joran
@ joran. Yah, dengan memaksa prediksi menjadi 0 atau 1 Anda kehilangan kemampuan untuk membuat penyesuaian halus untuk prediksi (antara 0 dan 1) yang dapat menurunkan kesalahan (mis. Rata-rata kesalahan prediksi kuadrat). Karena itu saya curiga pendekatan itu lebih rendah. Saya mencobanya dan sebagian besar upaya membangun pohon keputusan gagal menemukan bahkan pemisahan tunggal yang meningkatkan kesalahan.
redcalx

Jawaban:

10

Salah satu masalah potensial dengan pohon adalah bahwa mereka cenderung kurang pas di bagian ekor. Pikirkan terminal node yang menangkap jangkauan rendah dari set pelatihan. Ini akan memprediksi menggunakan mean dari set point pelatihan tersebut, yang akan selalu meremehkan hasilnya (karena itu adalah mean).

Anda dapat mencoba membuat model pohon [1]. Ini akan cocok dengan model linear di terminal node dan (saya pikir) melakukan pekerjaan yang lebih baik daripada pohon regresi. Lebih baik lagi, gunakan versi yang lebih berkembang yang disebut Cubist yang menggabungkan berbagai pendekatan ([1] dan [2] di bawah).

Model-model ini juga menangani prediktor kontinu dan diskrit berbeda. Mereka dapat melakukan pemisahan multi-arah untuk variabel kategori. Kriteria pemisahan sangat mirip dengan pohon CART.

Model tree dapat ditemukan di R dalam paket RWeka (disebut 'M5P') dan Cubist ada dalam paket Cubist. Tentu saja, Anda dapat menggunakan Weka juga dan Cubist memiliki versi C yang tersedia di situs web RuleQuest.

[1] Quinlan, J. (1992). Belajar dengan kelas berkelanjutan. Prosiding Konferensi Gabungan Australia Ke-5 tentang Kecerdasan Buatan, 343–348.

[2] Quinlan, J. (1993). Menggabungkan pembelajaran berbasis contoh dan berbasis model. Prosiding Konferensi Internasional Kesepuluh tentang Pembelajaran Mesin, 236–243.

topepo
sumber
1
Tidak bisakah Anda memiliki pohon yang lebih dalam untuk meminimalkan kecocokan yang buruk pada ekor?
Jase