Apakah pohon CART menangkap interaksi di antara para prediktor?

9

Makalah ini mengklaim bahwa dalam CART, karena pemisahan biner dilakukan pada kovariat tunggal pada setiap langkah, semua pemisahan bersifat ortogonal dan oleh karena itu interaksi di antara kovariat tidak dipertimbangkan.

Namun, banyak referensi yang sangat serius mengklaim, sebaliknya, bahwa struktur hierarki pohon menjamin bahwa interaksi antara para prediktor secara otomatis dimodelkan (misalnya, makalah ini , dan tentu saja Hastie).

Siapa yang benar Apakah pohon yang ditanamkan CART menangkap interaksi di antara variabel input?

Antoine
sumber
Kelemahan dalam argumen ini adalah bahwa pemisahan dibuat pada himpunan bagian kovariat yang ditentukan oleh pemisahan yang dilakukan sebelumnya.
@ mbq sehingga pemisahan baru tergantung pada pemisahan sebelumnya ... Saya mengerti ... Saya kira saya mengalami kesulitan memahami bahwa "dikondisikan oleh pemisahan sebelumnya yang dibuat pada prediktor yang diberikan" setara dengan "berinteraksi dengan prediktor ini "...
Antoine

Jawaban:

12

X1X2X1YX2

masukkan deskripsi gambar di sini

X1X2

TrynnaDoStat
sumber
2

Jawaban singkat

CARTs membutuhkan bantuan untuk menangkap interaksi.

Jawaban panjang

Ambil algoritma serakah yang tepat (Chen dan Guestrin, 2016):

Algoritma serakah yang tepat

Rerata pada daun akan menjadi harapan bersyarat, tetapi setiap perpecahan dalam perjalanan ke daun tidak tergantung pada yang lain. Jika Fitur A tidak penting dengan sendirinya tetapi itu penting dalam interaksi dengan Fitur B, algoritma tidak akan terpecah pada Fitur A. Tanpa pemisahan ini, algoritma tidak dapat melihat pemisahan pada Fitur B, yang diperlukan untuk menghasilkan interaksi.

x1,x2y=XOR(x1,x2)x1x2XOR

Dengan banyak fitur, regularisasi, dan batas keras pada jumlah pemisahan, algoritma yang sama dapat menghilangkan interaksi.

Penanganan masalah

Interaksi eksplisit sebagai fitur baru

Contoh dari Zhang ("Memenangkan Kompetisi Sains Data", 2015):

Zhang dalam interaksi

Algoritma pohon yang tidak serakah

Dalam pertanyaan lain, Simone menyarankan algoritma berbasis lookahead dan pohon keputusan miring .

Pendekatan pembelajaran yang berbeda

Beberapa metode pembelajaran menangani interaksi dengan lebih baik.

Berikut adalah tabel dari The Elements of Statistics Learning (baris "Kemampuan untuk mengekstrak kombinasi linear fitur"):

Perbandingan metode pembelajaran

Anton Tarasenko
sumber