Bias seleksi di pohon

8

Dalam Applied Predictive Modelling oleh Kuhn dan Johnson penulis menulis:

Akhirnya, pohon-pohon ini menderita bias seleksi: prediktor dengan jumlah nilai berbeda yang lebih tinggi lebih disukai daripada prediktor lebih granular (Loh dan Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh dan Shih (1997) mengatakan bahwa “Bahaya terjadi ketika kumpulan data terdiri dari campuran variabel informatif dan kebisingan, dan variabel kebisingan memiliki lebih banyak pemisahan daripada variabel informatif. Kemudian ada kemungkinan besar bahwa variabel-variabel kebisingan akan dipilih untuk membagi node atas pohon. Pemangkasan akan menghasilkan pohon dengan struktur yang menyesatkan atau tanpa pohon sama sekali. ”

Kuhn, Max; Johnson, Kjell (2013-05-17). Pemodelan Prediktif Terapan (Lokasi Kindle 5241-5247). Springer New York. Edisi menyalakan.

Mereka melanjutkan dengan mendeskripsikan beberapa penelitian membangun pohon yang tidak bias. Misalnya model GUIDE Loh.

Tetap seketat mungkin dalam kerangka CART, saya ingin tahu apakah ada yang bisa saya lakukan untuk meminimalkan bias seleksi ini? Sebagai contoh, mungkin mengelompokkan / mengelompokkan prediktor kardinalitas tinggi adalah salah satu strategi. Tetapi sampai sejauh mana seseorang harus melakukan pengelompokan? Jika saya memiliki prediktor dengan 30 level, haruskah saya mengelompokkan menjadi 10 level? 15? 5?

dal233
sumber
Inilah pertanyaan dan jawaban terkait .
dal233
1
Perlu diingat bahwa CART tidak hanya bias terhadap faktor-faktor dengan banyak level, tetapi berpotensi variabel kontinu juga jika ukuran sampel Anda besar. Apakah ada alasan tertentu Anda ingin tetap dalam kerangka CART? Selain PANDUAN, pohon inferensi bersyarat adalah pilihan lain untuk menghindari bias seleksi.
dmartin
Kesan saya adalah bahwa ada lebih banyak kode di luar rak yang ditulis untuk CART dan sebagai tambahan, saya ingin membuat hal-hal sederhana untuk dijelaskan.
dal233
Ketika saya mengatakan "off the shelf code yang ditulis untuk CART" - Saya juga bermaksud seluruh ekosistem di sekitar CART. Seperti misalnya rpart.plot.
dal233
ctree dan Anda akan melihat paket partai memiliki banyak fitur yang sama seperti yang dilakukan rpart. Data yang hilang juga ditangani melalui pengganti pengganti
dmartin

Jawaban:

2

Berdasarkan komentar Anda, saya akan menggunakan kerangka kerja inferensi bersyarat. Kode tersedia di R menggunakan fungsi ctree dalam paket partai. Ini memiliki pemilihan variabel yang tidak bias, dan sementara algoritma yang mendasari kapan dan bagaimana membuat pemisahan berbeda dibandingkan dengan CART, logikanya pada dasarnya sama. Manfaat lain yang diuraikan oleh penulis (lihat makalah di sini ) adalah bahwa Anda tidak perlu terlalu khawatir tentang pemangkasan pohon untuk menghindari overfitting. Algoritma sebenarnya menangani hal itu dengan menggunakan tes permutasi untuk menentukan apakah perpecahan adalah "signifikan secara statistik" atau tidak.

dmartin
sumber