Saya menjalankan klasifikasi pohon keputusan menggunakan SPSS pada kumpulan data dengan sekitar 20 prediktor (kategori dengan beberapa kategori). CHAID (Deteksi Interaksi Otomatis Chi-squared) dan CRT / CART (Klasifikasi Dan Pohon Regresi) memberi saya pohon yang berbeda. Adakah yang bisa menjelaskan manfaat relatif CHAID vs CRT? Apa implikasi dari menggunakan satu metode di atas yang lain?
23
Semua metode pohon tunggal melibatkan sejumlah perbandingan yang mengejutkan yang membawa ketidakstabilan yang hebat pada hasilnya. Itulah mengapa untuk mencapai diskriminasi prediktif yang memuaskan, beberapa bentuk rata-rata pohon (mengantongi, meningkatkan, hutan acak) diperlukan (kecuali bahwa Anda kehilangan keuntungan dari pohon - kemampuan menafsirkan). Kesederhanaan pohon tunggal sebagian besar adalah ilusi. Mereka sederhana karena mereka salah dalam arti bahwa melatih pohon ke banyak subset besar data akan mengungkapkan ketidaksepakatan besar antara struktur pohon.
Saya belum melihat metodologi CHAID baru-baru ini tetapi CHAID dalam inkarnasi aslinya adalah latihan yang hebat dalam interpretasi data yang berlebihan.
sumber