Dalam Applied Predictive Modelling oleh Kuhn dan Johnson penulis menulis:
Akhirnya, pohon-pohon ini menderita bias seleksi: prediktor dengan jumlah nilai berbeda yang lebih tinggi lebih disukai daripada prediktor lebih granular (Loh dan Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh dan Shih (1997) mengatakan bahwa “Bahaya terjadi ketika kumpulan data terdiri dari campuran variabel informatif dan kebisingan, dan variabel kebisingan memiliki lebih banyak pemisahan daripada variabel informatif. Kemudian ada kemungkinan besar bahwa variabel-variabel kebisingan akan dipilih untuk membagi node atas pohon. Pemangkasan akan menghasilkan pohon dengan struktur yang menyesatkan atau tanpa pohon sama sekali. ”
Kuhn, Max; Johnson, Kjell (2013-05-17). Pemodelan Prediktif Terapan (Lokasi Kindle 5241-5247). Springer New York. Edisi menyalakan.
Mereka melanjutkan dengan mendeskripsikan beberapa penelitian membangun pohon yang tidak bias. Misalnya model GUIDE Loh.
Tetap seketat mungkin dalam kerangka CART, saya ingin tahu apakah ada yang bisa saya lakukan untuk meminimalkan bias seleksi ini? Sebagai contoh, mungkin mengelompokkan / mengelompokkan prediktor kardinalitas tinggi adalah salah satu strategi. Tetapi sampai sejauh mana seseorang harus melakukan pengelompokan? Jika saya memiliki prediktor dengan 30 level, haruskah saya mengelompokkan menjadi 10 level? 15? 5?
Jawaban:
Berdasarkan komentar Anda, saya akan menggunakan kerangka kerja inferensi bersyarat. Kode tersedia di R menggunakan fungsi ctree dalam paket partai. Ini memiliki pemilihan variabel yang tidak bias, dan sementara algoritma yang mendasari kapan dan bagaimana membuat pemisahan berbeda dibandingkan dengan CART, logikanya pada dasarnya sama. Manfaat lain yang diuraikan oleh penulis (lihat makalah di sini ) adalah bahwa Anda tidak perlu terlalu khawatir tentang pemangkasan pohon untuk menghindari overfitting. Algoritma sebenarnya menangani hal itu dengan menggunakan tes permutasi untuk menentukan apakah perpecahan adalah "signifikan secara statistik" atau tidak.
sumber