Keuntungan GLM di simpul terminal pohon regresi?

8

Jadi saya bermain-main dengan ide menulis algoritma yang menumbuhkan dan memangkas pohon regresi dari data dan kemudian, di terminal node pohon, cocok dengan GLM. Saya sudah mencoba untuk membaca ide tetapi saya tidak bisa menemukan nama yang konsisten untuk teknik ini. Saya sudah membacanya sebagai pohon regresi hibrida (HRT), pohon model, dan pohon fungsional. Pencarian pada istilah-istilah ini muncul sangat sedikit.

Apakah saya kehilangan nama lain untuk ini? Di mana saya dapat menemukan penelitian tentang efektivitas ini?

ApeWithPants
sumber

Jawaban:

11

Seperti yang Anda katakan, ide ini telah dieksplorasi sebelumnya (meskipun dengan nama yang berbeda) dan sebenarnya ada literatur yang luas tentang topik itu. Nama-nama yang saya kaitkan dengan pekerjaan ini adalah Wei-Yin Loh, Probal Chaudhuri, Hongshik Ahn, Joao Gama, Antonio Ciampi atau Achim Zeileis. Anda dapat menemukan deskripsi yang cukup komprehensif tentang pro dan kontra dan algoritma yang berbeda (sedikit ketinggalan jaman) dalam tesis ini .

Pohon dengan GLM memiliki kelebihan (dis-) berikut (diparafrasekan dari sini - Anda dapat dengan mudah menemukan pracetak dengan googling):

  • Bentuk fungsional suatu GLM kadang-kadang dapat tampak terlalu kaku untuk seluruh kumpulan data, bahkan jika model tersebut mungkin cocok dalam sebuah subsampel.

  • Terutama dengan kumpulan data besar atau kumpulan data di mana pengetahuan tentang proses yang mendasarinya terbatas, membuat model parametrik yang berguna bisa sulit dan kinerjanya sehubungan dengan prediksi mungkin tidak memadai.

  • Pohon dapat menggabungkan hubungan non-linier atau menemukan hubungan fungsional sendiri dan oleh karena itu dapat memiliki daya prediksi yang lebih tinggi dalam pengaturan di mana model klasik bias atau bahkan gagal.

  • Karena karakter eksploratif mereka, pohon dengan GLM dapat mengungkapkan pola yang tersembunyi dalam data yang dimodelkan dengan GLM atau memberikan penjelasan lebih lanjut tentang hasil mengejutkan atau kontra-intuitif dengan memasukkan informasi tambahan dari kovariat lainnya.

  • Mereka dapat membantu mengidentifikasi segmen-segmen data yang cocok untuk model yang diasumsikan a priori. Mungkin secara keseluruhan model ini kurang pas tetapi karena beberapa kontaminasi (misalnya menggabungkan dua file data terpisah atau kesalahan sistematis selama pengumpulan data pada tanggal tertentu). Pohon dengan GLM mungkin mempartisi data dengan cara yang memungkinkan kita menemukan segmen yang memiliki kecocokan buruk dan menemukan segmen yang kecocokannya mungkin lebih baik.

  • Struktur seperti pohon memungkinkan efek dari kovariat ini menjadi non-linear dan sangat interaktif dibandingkan dengan mengasumsikan pengaruh linear pada rata-rata terkait.

  • Pohon dengan GLM dapat mengarah pada wawasan tambahan untuk model parametrik yang diasumsikan a priori, terutama jika mekanisme yang mendasarinya terlalu kompleks untuk ditangkap oleh GLM.

  • Pohon dengan GLM dapat secara otomatis mendeteksi interaksi, non-linearitas, kesalahan spesifikasi model, pengaruh kovariat yang tidak diperhatikan dan sebagainya.

  • Mereka dapat digunakan sebagai alat eksplorasi dalam set data yang kompleks dan besar yang memiliki sejumlah keunggulan.

  • Dibandingkan dengan GLM global, pohon model GLM dapat mengurangi masalah bias dan kesalahan spesifikasi model dan memberikan kecocokan yang lebih baik.

  • Dibandingkan dengan algoritma pohon dengan konstanta, spesifikasi model parametrik dalam node terminal dapat menambah stabilitas ekstra dan karenanya mengurangi varians metode pohon.

  • Menjadi hibrida pohon dan model tipe GLM klasik, kinerja biasanya terletak di antara kedua kutub: Mereka cenderung menunjukkan kekuatan prediksi yang lebih tinggi daripada model klasik tetapi kurang dari pohon non-parametrik.

  • Mereka menambahkan beberapa kompleksitas dibandingkan dengan model klasik karena proses pemisahan tetapi biasanya lebih parsimon daripada pohon non-parametrik.

  • Mereka menunjukkan varians prediksi yang lebih tinggi daripada model global dalam percobaan bootstrap, tetapi jauh lebih sedikit daripada pohon non-parametrik (bahkan yang dipangkas).

  • Menggunakan GLM di simpul pohon biasanya mengarah ke pohon yang lebih kecil

  • Menggunakan GLM di simpul pohon biasanya mengarah ke prediksi yang lebih stabil dibandingkan dengan pohon yang hanya memiliki konstanta (tetapi tidak sekestabil pengantong atau hutan pohon)

  • Dimensi VC dari pohon dengan GLM di node lebih tinggi daripada pohon yang setara dengan hanya konstan (karena yang terakhir adalah kasus khusus dari yang sebelumnya)

Mengenai "keefektifan" (saya berasumsi maksud Anda kinerja prediktif) pohon dengan GLM, sebagian besar makalah yang dikutip dalam dua tautan di atas memang menyediakan beberapa penyelidikan tentang hal itu. Namun, perbandingan yang komprehensif dan luas dari semua algoritma dengan pesaing seperti pohon standar belum dilakukan untuk yang terbaik dari pengetahuan saya.

Momo
sumber