Pohon Keputusan dan Regresi - Dapatkah nilai prediksi berada di luar kisaran data pelatihan?

Dalam hal pohon keputusan, dapatkah nilai yang diprediksi berada di luar kisaran data pelatihan?

Sebagai contoh, jika rentang set data pelatihan dari variabel target adalah 0-100, ketika saya membuat model dan menerapkannya pada hal lain, dapatkah nilai saya menjadi -5? atau 150?

Mengingat bahwa pemahaman saya tentang regresi pohon keputusan adalah bahwa hal itu masih merupakan aturan berdasarkan progresi kiri / kanan dan bahwa di bagian bawah pohon dalam set pelatihan tidak pernah dapat melihat nilai di luar rentang tertentu, itu tidak akan pernah dapat prediksi itu?

regression predictive-models random-forest cart pengguna3788557
sumber

Untuk pertanyaan serupa tentang pohon yang didorong oleh gradien, lihat stats.stackexchange.com/questions/304962/…

Adrian

Jawaban:

Anda sepenuhnya benar: pohon keputusan klasik tidak dapat memprediksi nilai di luar rentang yang diamati secara historis. Mereka tidak akan memperkirakan.

Hal yang sama berlaku untuk hutan acak.

Secara teoritis, Anda kadang-kadang melihat diskusi tentang arsitektur yang agak rumit (botani?), Di mana daun pohon tidak memberikan nilai tunggal , tetapi mengandung regresi sederhana , misalnya, regresi variabel dependen pada variabel independen numerik tertentu. Menavigasi melalui pohon akan memberi Anda aturan yang ditetapkan pada angka IV mana untuk mengembalikan DV pada kasus apa. Dalam kasus seperti itu, regresi "tingkat bawah" ini dapat diekstrapolasi untuk menghasilkan nilai yang belum diamati.

Namun, saya tidak berpikir perpustakaan pembelajaran mesin standar menawarkan struktur yang agak lebih kompleks ini (saya baru-baru mencari ini melalui CRAN Task Views for R), walaupun seharusnya tidak ada yang rumit tentang hal itu. Anda mungkin dapat menerapkan pohon Anda sendiri yang mengandung regresi di daun.

Stephan Kolassa
sumber

Saya jarang membaca tentang mobForest yang mendukung regresi leaf di R, stats.stackexchange.com/questions/48475/mobforest-r-package

Soren Havelund Welling

@SorenHavelundWelling: kedengarannya menarik. Terima kasih untuk penunjuknya!

Stephan Kolassa

Salah satu algoritma pertama yang menyediakan model regresi linier pada daun pohon adalah Quinlan's M5, sebuah perkiraan yang tersedia dalam M5P () di Weka (dihubungkan dalam R melalui RWeka). Algoritma yang tidak bias untuk masalah, yang disebut GUIDE, pertama kali disarankan oleh Loh. Binari untuk paket standalone-nya ada di situs webnya. Akhirnya, algoritma partisi rekursif berbasis model kami (MOB) mencakup berbagai model seperti itu. Ini tersedia dalam paket R partykit: mob () adalah alat generik dan lmtree () dan glmtree () adalah adaptasinya terhadap pohon dengan model linier (umum) di daun.

Achim Zeileis

@SorenHavelundWelling: sayangnya, yang mobForestpaket telah dihapus dari CRAN . Saya akan melihat partykitpaket yang direkomendasikan Achim Zeileis .

Stephan Kolassa

Hanya kepala bahwa mobForest kembali pada CRAN: cran.r-project.org/web/packages/mobForest/index.html

mkt - Reinstate Monica

Lihat juga cubist dalam paket caret. Itu membangun regresi linier di terminal node dan dapat memperkirakan prediksi di atas dan di bawah kisaran nilai respons dalam data pelatihan. Node terminal juga dapat dirata-ratakan berdasarkan tetangga terdekat yang disediakan sebagai hiperparameter, sehingga berpotensi memberikan prediksi lintas yang sangat akurat.

Scott Worland
sumber