Bias seleksi di pohon

Dalam Applied Predictive Modelling oleh Kuhn dan Johnson penulis menulis:

Akhirnya, pohon-pohon ini menderita bias seleksi: prediktor dengan jumlah nilai berbeda yang lebih tinggi lebih disukai daripada prediktor lebih granular (Loh dan Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh dan Shih (1997) mengatakan bahwa “Bahaya terjadi ketika kumpulan data terdiri dari campuran variabel informatif dan kebisingan, dan variabel kebisingan memiliki lebih banyak pemisahan daripada variabel informatif. Kemudian ada kemungkinan besar bahwa variabel-variabel kebisingan akan dipilih untuk membagi node atas pohon. Pemangkasan akan menghasilkan pohon dengan struktur yang menyesatkan atau tanpa pohon sama sekali. ”

Kuhn, Max; Johnson, Kjell (2013-05-17). Pemodelan Prediktif Terapan (Lokasi Kindle 5241-5247). Springer New York. Edisi menyalakan.

Mereka melanjutkan dengan mendeskripsikan beberapa penelitian membangun pohon yang tidak bias. Misalnya model GUIDE Loh.

Tetap seketat mungkin dalam kerangka CART, saya ingin tahu apakah ada yang bisa saya lakukan untuk meminimalkan bias seleksi ini? Sebagai contoh, mungkin mengelompokkan / mengelompokkan prediktor kardinalitas tinggi adalah salah satu strategi. Tetapi sampai sejauh mana seseorang harus melakukan pengelompokan? Jika saya memiliki prediktor dengan 30 level, haruskah saya mengelompokkan menjadi 10 level? 15? 5?

cart bias dal233
sumber

Inilah pertanyaan dan jawaban terkait .

dal233

Perlu diingat bahwa CART tidak hanya bias terhadap faktor-faktor dengan banyak level, tetapi berpotensi variabel kontinu juga jika ukuran sampel Anda besar. Apakah ada alasan tertentu Anda ingin tetap dalam kerangka CART? Selain PANDUAN, pohon inferensi bersyarat adalah pilihan lain untuk menghindari bias seleksi.

dmartin

Kesan saya adalah bahwa ada lebih banyak kode di luar rak yang ditulis untuk CART dan sebagai tambahan, saya ingin membuat hal-hal sederhana untuk dijelaskan.

dal233

Ketika saya mengatakan "off the shelf code yang ditulis untuk CART" - Saya juga bermaksud seluruh ekosistem di sekitar CART. Seperti misalnya rpart.plot.

dal233

ctree dan Anda akan melihat paket partai memiliki banyak fitur yang sama seperti yang dilakukan rpart. Data yang hilang juga ditangani melalui pengganti pengganti

dmartin

Bias seleksi di pohon

Jawaban: