CHAID vs CRT (atau CART)

23

Saya menjalankan klasifikasi pohon keputusan menggunakan SPSS pada kumpulan data dengan sekitar 20 prediktor (kategori dengan beberapa kategori). CHAID (Deteksi Interaksi Otomatis Chi-squared) dan CRT / CART (Klasifikasi Dan Pohon Regresi) memberi saya pohon yang berbeda. Adakah yang bisa menjelaskan manfaat relatif CHAID vs CRT? Apa implikasi dari menggunakan satu metode di atas yang lain?

Placidia
sumber

Jawaban:

23

Saya akan mencantumkan beberapa properti dan kemudian memberi Anda penilaian saya berapa nilainya:

  • CHAID menggunakan multiway splits secara default (multiway splits berarti bahwa node saat ini dibagi menjadi lebih dari dua node). Ini mungkin atau mungkin tidak diinginkan (dapat menyebabkan segmen yang lebih baik atau interpretasi yang lebih mudah). Apa yang pasti dilakukan, adalah menipiskan ukuran sampel di node dan dengan demikian menyebabkan pohon kurang dalam. Ketika digunakan untuk tujuan segmentasi, ini dapat menjadi bumerang segera setelah CHAID membutuhkan ukuran sampel yang besar untuk bekerja dengan baik. CART melakukan pembelahan biner (setiap node dibagi menjadi dua simpul anak) secara default.
  • CHAID dimaksudkan untuk bekerja dengan target kategoris / diskrit (XAID adalah untuk regresi tetapi mungkin mereka telah bergabung sejak itu). CART pasti dapat melakukan regresi dan klasifikasi.
  • CHAID menggunakan ide pra-pemangkasan . Suatu simpul hanya dibagi jika kriteria signifikan dipenuhi. Ini terkait dengan masalah di atas yang membutuhkan ukuran sampel besar karena uji Chi-Square hanya memiliki sedikit kekuatan dalam sampel kecil (yang secara efektif dikurangi lebih jauh dengan koreksi Bonferroni untuk beberapa pengujian). CART di sisi lain menumbuhkan pohon besar dan kemudian memangkas pohon kembali ke versi yang lebih kecil.
  • Dengan demikian CHAID mencoba untuk mencegah overfitting sejak awal (hanya perpecahan yang ada hubungan yang signifikan), sedangkan CART dapat dengan mudah menutupi pakaian kecuali pohon tersebut dipangkas kembali. Di sisi lain, ini memungkinkan CART berkinerja lebih baik daripada CHAID di dalam dan di luar sampel (untuk kombinasi parameter penyetelan tertentu).
  • Perbedaan paling penting menurut saya adalah bahwa pemilihan variabel terpecah dan titik perpecahan dalam CHAID kurang begitu membingungkan seperti pada CART . Ini sebagian besar tidak relevan ketika pohon digunakan untuk prediksi tetapi merupakan masalah penting ketika pohon digunakan untuk interpretasi: Sebuah pohon yang memiliki dua bagian algoritma yang sangat dikacaukan dikatakan "bias dalam pemilihan variabel" (nama yang disayangkan) . Ini berarti bahwa pemilihan variabel terpecah lebih suka variabel dengan banyak kemungkinan pemisahan (katakanlah prediksi metrik). CART sangat "bias" dalam arti itu, CHAID tidak begitu banyak.
  • Dengan pemisahan pengganti, CART tahu cara menangani nilai yang hilang (pemisahan pengganti berarti bahwa dengan nilai yang hilang (NAs) untuk variabel prediktor, algoritma menggunakan variabel prediktor lain yang tidak sebagus variabel split primer tetapi meniru split yang dihasilkan oleh primer. splitter). CHAID tidak memiliki hal seperti itu.

Jadi tergantung pada apa yang Anda butuhkan, saya sarankan untuk menggunakan CHAID jika sampel berukuran dan aspek interpretasi lebih penting. Juga, jika multiway splits atau pohon lebih kecil diinginkan CHAID lebih baik. Sebaliknya, CART adalah mesin prediksi yang berfungsi dengan baik sehingga jika prediksi adalah tujuan Anda, saya akan menggunakan CART.

Momo
sumber
1
(+1). Tinjauan yang bagus. Bisakah Anda jelaskan apa itu "multiway split" dan "surrogate splits"? Apakah split multiway jika split tidak dikotomis?
COOLSerdash
1
@Momo: Terima kasih banyak atas jawaban yang diperbarui. Mengenai multiway split, saya telah menemukan pernyataan menarik berikut dari Hastie et al. (2013) Unsur-unsur pembelajaran statistik : "[...] Walaupun [multiway splits] ini kadang-kadang dapat berguna, ini bukan strategi umum yang baik. [...] Karena multiway splits dapat dicapai oleh serangkaian binary split, yang terakhir lebih disukai. " Saya bertanya-tanya apakah ini benar-benar pasti seperti yang mereka nyatakan (saya tidak terlalu berpengalaman dengan pembelajaran mesin) tetapi di sisi lain, buku mereka dianggap sebagai referensi.
COOLSerdash
Ya, serangkaian pemisahan biner bisa sama dengan pemisahan multi-jalur. Mereka juga bisa berbeda. Saya cenderung setuju dengan pernyataan itu. Satu hal lain yang perlu diperhatikan adalah bahwa mencari titik perpecahan dengan pencarian lengkap secara algoritmik lebih sederhana dan lebih cepat untuk pemisahan biner dari node yang diberikan.
Momo
Jawabannya sangat lengkap. Saya menggunakan CHAID dalam penelitian dengan lebih dari 100.000 basis data. Pada level ini, klasifikasi sangat tepat tetapi saya sarankan mencoba beberapa kali dengan jumlah partisi yang berbeda dan level pohon yang kurang dalam (perangkat lunak SPSS memungkinkan untuk menentukan parameter ini sebelumnya). Ini karena CHAID menghasilkan pohon klasifikasi dengan beberapa grup (multisplit) dan jauh lebih buruk jika databasenya besar. Pohon terakhir akan sangat besar. Akhirnya, jangan lupa untuk menggunakan "kontrol internal" divisi sampel dari database. Lihat juga Buku Panduan Klasifikasi SPSS yang tersedia di goo
user35523
Bagaimana dengan QUEST ??
Madhu Sareen
8

Semua metode pohon tunggal melibatkan sejumlah perbandingan yang mengejutkan yang membawa ketidakstabilan yang hebat pada hasilnya. Itulah mengapa untuk mencapai diskriminasi prediktif yang memuaskan, beberapa bentuk rata-rata pohon (mengantongi, meningkatkan, hutan acak) diperlukan (kecuali bahwa Anda kehilangan keuntungan dari pohon - kemampuan menafsirkan). Kesederhanaan pohon tunggal sebagian besar adalah ilusi. Mereka sederhana karena mereka salah dalam arti bahwa melatih pohon ke banyak subset besar data akan mengungkapkan ketidaksepakatan besar antara struktur pohon.

Saya belum melihat metodologi CHAID baru-baru ini tetapi CHAID dalam inkarnasi aslinya adalah latihan yang hebat dalam interpretasi data yang berlebihan.

Frank Harrell
sumber