Apakah pohon keputusan hampir selalu pohon biner?

21

Hampir setiap contoh pohon keputusan yang saya temui kebetulan merupakan pohon biner. Apakah ini cukup universal? Apakah sebagian besar algoritma standar (C4.5, CART, dll.) Hanya mendukung pohon biner? Dari apa yang saya kumpulkan, CHAID tidak terbatas pada pohon biner, tapi itu sepertinya pengecualian.

Perpecahan dua arah diikuti oleh perpecahan dua arah lain pada salah satu anak tidak sama dengan perpecahan tiga arah tunggal. Ini mungkin poin akademis, tapi saya berusaha memastikan saya memahami kasus penggunaan yang paling umum.

Michael McGowan
sumber

Jawaban:

18

Ini terutama masalah teknis: jika Anda tidak membatasi pilihan biner, ada terlalu banyak kemungkinan untuk pemecahan berikutnya di pohon. Jadi Anda benar dalam semua poin yang dibuat dalam pertanyaan Anda.

Ketahuilah bahwa sebagian besar algoritma jenis pohon bekerja bertahap dan bahkan tidak dijamin memberikan hasil terbaik. Ini hanyalah satu peringatan tambahan.

Untuk tujuan yang paling praktis, meskipun tidak selama pembangunan / pemangkasan pohon, dua jenis perpecahan adalah setara, meskipun, mengingat bahwa mereka muncul segera setelah satu sama lain.

Nick Sabbe
sumber
Hanya untuk memperkuat pada poin pertama Anda: Jumlah kemungkinan split naik secara eksponensial. Jika Anda membagi pada variabel kontinu yang memiliki 1000 nilai yang berbeda, ada 999 pemisahan biner, tetapi 999 * 998 pembagian trinary.
Peter Flom - Pasang kembali Monica
2
@ Peter Ada 998/2 perpecahan ternary, sebenarnya. (1000-13-1)=999998/2
whuber
5

Perpecahan dua arah diikuti oleh perpisahan dua arah pada salah satu anak tidak sama dengan perpecahan tiga arah tunggal

Saya tidak yakin apa yang Anda maksud di sini. Setiap split multi-arah dapat direpresentasikan sebagai serangkaian split dua arah. Untuk pemisahan tiga arah, Anda dapat membagi menjadi A, B, dan C dengan terlebih dahulu membelah menjadi A&B versus C dan kemudian memisahkan A dari B.

Algoritme yang diberikan mungkin tidak memilih urutan tertentu (terutama jika, seperti kebanyakan algoritma, itu serakah), tetapi tentu saja bisa. Dan jika ada prosedur pengacakan atau stagewise yang dilakukan seperti di hutan acak atau pohon yang dikuatkan, peluang untuk menemukan urutan pemisahan yang tepat akan meningkat. Seperti yang telah ditunjukkan oleh orang lain, pemisahan multi-arah secara komputasi mahal, sehingga diberikan alternatif ini, sebagian besar peneliti tampaknya telah memilih pemisahan biner.

Semoga ini membantu

David J. Harris
sumber
3
Ya saya mengerti bahwa A, B, dan C dapat dicapai dengan pertama-tama membelah menjadi A & B vs C dan kemudian memisahkan A dari B. Maksud saya memang bahwa algoritma yang diberikan mungkin tidak memilih urutan tertentu.
Michael McGowan
2

Mengenai penggunaan pohon keputusan dan pemisahan (biner versus lainnya), saya hanya tahu CHAID yang memiliki pemisahan non-biner tetapi ada kemungkinan yang lain. Bagi saya, penggunaan utama dari pemisahan non-biner adalah dalam latihan penambangan data di mana saya melihat bagaimana cara secara optimal memasukkan variabel nominal dengan banyak level. Serangkaian pemisahan biner tidak berguna seperti pengelompokan yang dilakukan oleh CHAID.

B_Miner
sumber
Ini lucu bahwa Anda menyebutkan binning, karena memikirkan binning adalah apa yang membuat saya mulai bertanya-tanya tentang pertanyaan ini (walaupun saya berpikir tentang binning variabel numerik daripada variabel nominal).
Michael McGowan
@Michael, Ya itu juga berfungsi tetapi Anda membuang informasi. Saya menggunakannya ketika saya harus menggabungkan level variabel nominal yang jarang - ketika pemodelan akhir akan dilakukan tanpa pendekatan jenis pohon (katakanlah regresi logistik atau SVM dan banyak variabel dummy yang jarang menyebabkan masalah)
B_Miner
0

Silakan baca ini

Untuk alasan praktis (ledakan kombinatorial) sebagian besar perpustakaan menerapkan pohon keputusan dengan pemisahan biner. Yang menyenangkan adalah bahwa mereka NP-lengkap (Hyafil, Laurent, dan Ronald L. Rivest. "Membangun pohon keputusan biner optimal adalah NP-lengkap." Informasi Pemrosesan Surat 5.1 (1976): 15-17.)

Bayar C.
sumber