Matematika di balik pohon klasifikasi dan regresi

14

Adakah yang bisa membantu menjelaskan beberapa matematika di balik klasifikasi dalam CART? Saya ingin memahami bagaimana dua tahap utama terjadi. Sebagai contoh, saya melatih classifier CART pada dataset dan menggunakan dataset pengujian untuk menandai kinerja prediktifnya tetapi:

Bagaimana akar awal pohon dipilih?
Mengapa dan bagaimana masing-masing cabang dibentuk?

Dataset saya menjadi 400 ribu catatan dengan 15 kolom dan 23 kelas mencapai akurasi 100% dari matriks kebingungan, saya menggunakan 10 kali lipat crossvalidasi pada dataset. Saya akan sangat berterima kasih jika ada yang bisa membantu menjelaskan tahapan klasifikasi CART?

24

CART dan pohon keputusan seperti algoritma bekerja melalui partisi rekursif dari set pelatihan untuk mendapatkan himpunan bagian yang semurni mungkin untuk kelas target yang diberikan. Setiap simpul pohon terkait dengan serangkaian catatan $T$ yang dipisahkan oleh tes khusus pada fitur. Misalnya, pemisahan pada atribut kontinu $A$ dapat diinduksi oleh tes $A \le x$ . Himpunan catatan kemudian dipartisi dalam dua himpunan bagian yang mengarah ke cabang kiri pohon dan yang kanan. $T$

$T_l = \{ t \in T: t(A) \le x \}$

dan

$T_r = \{ t \in T: t(A) > x \}$

Demikian pula, fitur kategorikal dapat digunakan untuk menginduksi pemisahan sesuai dengan nilainya. Sebagai contoh, jika setiap cabang dapat diinduksi oleh tes . $B$ $B = \{b_1, \dots, b_k\}$ $i$ $B = b_i$

Langkah bagi algoritma rekursif untuk menginduksi pohon keputusan memperhitungkan semua kemungkinan pemisahan untuk setiap fitur dan mencoba menemukan yang terbaik berdasarkan ukuran kualitas yang dipilih: kriteria pemisahan. Jika dataset Anda diinduksi pada skema berikut

A_{1}, \dots, A_{m}, C

$A_1, \dots, A_m, C$

di mana adalah atribut dan adalah kelas target, semua kandidat yang dibagi dihasilkan dan dievaluasi oleh kriteria pemisahan. Perpecahan pada atribut kontinu dan yang kategorikal dihasilkan seperti dijelaskan di atas. Pemilihan split terbaik biasanya dilakukan dengan tindakan pengotor. Pengotor simpul induk harus dikurangi dengan pemisahan . Biarkan menjadi split yang diinduksi pada set catatan , kriteria pemisahan yang digunakan untuk ukuran pengotor adalah: $A_j$ $C$ $(E_1, E_2, \dots, E_k)$ $E$ $I(\cdot)$

Δ = I (E) - \sum_{i = 1}^{k} \frac{| E_{i} |}{| E |} I (E_{i})

$\Delta = I(E) - \sum_{i=1}^{k}\frac{|E_i|}{|E|}I(E_i)$

Ukuran pengotor standar adalah entropi Shannon atau indeks Gini. Lebih khusus, CART menggunakan indeks Gini yang didefinisikan untuk set sebagai berikut. Biarkan menjadi fraksi catatan dalam dari kelas $E$ $p_j$ $E$ $c_j$ maka manaadalah jumlah kelas.

p_{j} = \frac{| {t \in E : t [C] = c_{j}} |}{| E |}

$p_j = \frac{|\{t \in E:t[C] = c_j\}|}{|E|}$

G i n i (E) = 1 - \sum_{j = 1}^{Q} p_{j}^{2}

$\mathit{Gini}(E) = 1 - \sum_{j=1}^{Q}p_j^2$

Q

$Q$

Itu mengarah ke 0 kenajisan ketika semua catatan milik kelas yang sama.

Sebagai contoh, mari kita mengatakan bahwa kita memiliki satu set kelas biner catatan di mana distribusi kelas - berikut ini adalah split baik untuk $T$ $(1/2, 1/2)$ $T$

Perpecahan yang bagus

$T_l$ $(1,0)$ $T_r$ $(0,1)$ $T_l$ $T_r$ $|T_l|/|T| = |T_r|/|T| = 1/2$ $\Delta$

Δ = 1 - 1 / 2^{2} - 1 / 2^{2} - 0 - 0 = 1 / 2

$\Delta = 1 - 1/2^2 - 1/2^2 - 0 - 0 = 1/2$

$\Delta$ Perpecahan buruk

Δ = 1 - 1 / 2^{2} - 1 / 2^{2} - 1 / 2 (1 - (3 / 4)^{2} - (1 / 4)^{2}) - 1 / 2 (1 - (1 / 4)^{2} - (3 / 4)^{2}) = 1 / 2 - 1 / 2 (3 / 8) - 1 / 2 (3 / 8) = 1 / 8

$\Delta = 1 - 1/2^2 - 1/2^2 - 1/2 \bigg( 1 - (3/4)^2 - (1/4)^2 \bigg) - 1/2 \bigg( 1 - (1/4)^2 - (3/4)^2 \bigg) = 1/2 - 1/2(3/8) - 1/2(3/8) = 1/8$

Split pertama akan dipilih sebagai split terbaik dan kemudian algoritma melanjutkan secara rekursif.

Sangat mudah untuk mengklasifikasikan contoh baru dengan pohon keputusan, bahkan cukup untuk mengikuti jalur dari simpul akar ke daun. Catatan diklasifikasikan dengan kelas mayoritas daun yang dijangkau.

Katakanlah kita ingin mengklasifikasikan kotak pada gambar ini

Dua dataset fitur

$A,B,C$ $C$ $A$ $B$

Pohon keputusan yang mungkin diinduksi mungkin sebagai berikut: masukkan deskripsi gambar di sini

Jelas bahwa catatan persegi akan diklasifikasikan oleh pohon keputusan sebagai lingkaran mengingat catatan jatuh pada daun berlabel lingkaran.

Dalam contoh mainan ini, akurasi pada set pelatihan adalah 100% karena tidak ada catatan yang salah diklasifikasi oleh pohon. Pada representasi grafis dari pelatihan yang ditetapkan di atas kita dapat melihat batas-batas (garis putus-putus abu-abu) yang digunakan pohon untuk mengklasifikasikan instance baru.

Ada banyak literatur tentang pohon keputusan, saya hanya ingin menuliskan pengantar yang samar. Implementasi terkenal lainnya adalah C4.5.

Simone
sumber

1

diagram yang bagus!

Cam.Davidson.Pilon

Terima kasih, sayangnya sepertinya editor tidak mendukung unggahan dalam format PDF. Mereka vektorial.

Simone

2

Saya bukan ahli tentang CARTs tetapi Anda dapat mencoba buku "Elemen Pembelajaran Statistik" yang tersedia secara online secara gratis (lihat bab 9 untuk CARTs). Saya percaya buku itu ditulis oleh salah satu pencipta algoritma CART (Friedman).

Bitwise
sumber

Itu banyak membantu! +1 penemuan cemerlang!

G Gr

@GarrithGraham tidak masalah, saya pikir buku gratis ini adalah "rahasia terkenal".

Bitwise

Matematika di balik pohon klasifikasi dan regresi

Jawaban: