Dapatkah pohon regresi memprediksi secara terus menerus?

11

Misalkan saya memiliki fungsi yang halus seperti . Saya memiliki set pelatihan D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ dalam \ mathbb {R} ^ 2 \} dan, tentu saja, saya tidak tahu f meskipun saya dapat mengevaluasi f di mana pun saya inginkan.f(x,y)=x2+y2D{((x,y),f(x,y))|(x,y)R2}ff

Apakah pohon regresi mampu menemukan model fungsi yang mulus (karenanya perubahan kecil pada input seharusnya hanya memberikan perubahan kecil pada output)?

Dari apa yang saya baca di Kuliah 10: Pohon Regresi menurut saya pohon regresi pada dasarnya memasukkan nilai fungsi ke dalam nampan:

Untuk pohon regresi klasik, model di setiap sel hanyalah estimasi konstan Y.

Ketika mereka menulis "klasik", saya kira ada varian di mana sel melakukan sesuatu yang lebih menarik?

Martin Thoma
sumber

Jawaban:

2

Pohon regresi, khususnya peningkatan gradien (pada dasarnya banyak pohon), cenderung bekerja dengan sangat baik pada prediksi kontinu, seringkali mengungguli model yang benar-benar berkelanjutan seperti regresi linier ketika. Ini terutama benar ketika ada interaksi variabel dan ketika Anda memiliki dataset yang cukup besar (lebih dari 10.000 catatan) sehingga overfitting lebih kecil kemungkinannya. Jika tujuan utama Anda hanyalah daya prediksi, maka apakah model tersebut 100% kontinu atau semu kontinu seharusnya tidak relevan. Jika membuat pohon regresi Anda lebih berkesinambungan meningkatkan kekuatan prediksi sampel, maka Anda dapat meningkatkan kedalaman pohon atau menambah lebih banyak pohon.

Ryan Zotti
sumber
1
Saya setuju. Pohon yang saya dorong hampir selalu mengungguli GLM yang dibuat dengan sangat susah payah dan dioptimalkan. Tentu saja, Anda kehilangan interpretabilitas ketika Anda mendapatkan kekuatan prediksi.
prooffreader
0

Di pohon regresi klasik Anda memiliki satu nilai di daun, tetapi di daun Anda dapat memiliki model regresi linier, periksa tiket ini .

Anda juga dapat menggunakan ensemble pohon (Random Forest atau Gradient Boosting Machines) untuk memiliki nilai output yang berkelanjutan.

pplonski
sumber
0

Jika Anda sedikit memperluas pertanyaan untuk memasukkan teknik peningkatan gradien umum (berbeda dengan kasus khusus pohon regresi yang dikuatkan), maka jawabannya adalah ya. Peningkatan gradien telah berhasil digunakan sebagai alternatif untuk pemilihan variabel. Contoh yang baik adalah paket mboost . Kuncinya adalah bahwa kelas pembelajar dasar yang digunakan untuk meningkatkan terdiri dari model kontinu untuk memulai. Tutorial ini menjelaskan kelas-kelas dasar pelajar dasar sebagai berikut:

Model-model pembelajaran dasar yang umum digunakan dapat diklasifikasikan ke dalam tiga kategori berbeda: model linier, model halus dan pohon keputusan. Ada juga sejumlah model lain, seperti bidang acak markov (Dietterich et al., 2004) atau wavelet (Viola dan Jones, 2001), tetapi aplikasi mereka muncul untuk tugas-tugas praktis yang relatif spesifik.

Perhatikan bahwa ia secara khusus menyebutkan wavelet. Pohon dan wavelet telah berhasil digabungkan sebelumnya menjadi wavelet berbasis pohon.

pengguna3605620
sumber
Apa yang menjadi basis pembelajar berkelanjutan dalam peningkatan Gradient? Jika jawabannya adalah pohon keputusan, bisakah Anda menjelaskan bagaimana itu berkelanjutan?
Martin Thoma
Saya telah memperbarui jawaban saya. Kuncinya adalah menggunakan prediktor seperti pohon terus menerus.
user3605620