Dalam hal pohon keputusan, dapatkah nilai yang diprediksi berada di luar kisaran data pelatihan?
Sebagai contoh, jika rentang set data pelatihan dari variabel target adalah 0-100, ketika saya membuat model dan menerapkannya pada hal lain, dapatkah nilai saya menjadi -5? atau 150?
Mengingat bahwa pemahaman saya tentang regresi pohon keputusan adalah bahwa hal itu masih merupakan aturan berdasarkan progresi kiri / kanan dan bahwa di bagian bawah pohon dalam set pelatihan tidak pernah dapat melihat nilai di luar rentang tertentu, itu tidak akan pernah dapat prediksi itu?
regression
predictive-models
random-forest
cart
pengguna3788557
sumber
sumber
Jawaban:
Anda sepenuhnya benar: pohon keputusan klasik tidak dapat memprediksi nilai di luar rentang yang diamati secara historis. Mereka tidak akan memperkirakan.
Hal yang sama berlaku untuk hutan acak.
Secara teoritis, Anda kadang-kadang melihat diskusi tentang arsitektur yang agak rumit (botani?), Di mana daun pohon tidak memberikan nilai tunggal , tetapi mengandung regresi sederhana , misalnya, regresi variabel dependen pada variabel independen numerik tertentu. Menavigasi melalui pohon akan memberi Anda aturan yang ditetapkan pada angka IV mana untuk mengembalikan DV pada kasus apa. Dalam kasus seperti itu, regresi "tingkat bawah" ini dapat diekstrapolasi untuk menghasilkan nilai yang belum diamati.
Namun, saya tidak berpikir perpustakaan pembelajaran mesin standar menawarkan struktur yang agak lebih kompleks ini (saya baru-baru mencari ini melalui CRAN Task Views for R), walaupun seharusnya tidak ada yang rumit tentang hal itu. Anda mungkin dapat menerapkan pohon Anda sendiri yang mengandung regresi di daun.
sumber
mobForest
paket telah dihapus dari CRAN . Saya akan melihatpartykit
paket yang direkomendasikan Achim Zeileis .Lihat juga cubist dalam paket caret. Itu membangun regresi linier di terminal node dan dapat memperkirakan prediksi di atas dan di bawah kisaran nilai respons dalam data pelatihan. Node terminal juga dapat dirata-ratakan berdasarkan tetangga terdekat yang disediakan sebagai hiperparameter, sehingga berpotensi memberikan prediksi lintas yang sangat akurat.
sumber