Apa dimensi VC dari pohon keputusan?

17

Apa dimensi VC dari pohon keputusan dengan k terbagi dalam dua dimensi? Katakanlah modelnya adalah CART dan satu-satunya pemisahan yang dibiarkan sejajar dengan sumbu.

Jadi untuk satu split kita dapat memesan 3 poin dalam segitiga dan kemudian untuk setiap pelabelan poin kita bisa mendapatkan prediksi sempurna (yaitu: poin hancur)

Tapi bagaimana dengan 2 split, atau k umum?

Tal Galili
sumber

Jawaban:

13

Saya tidak yakin ini adalah pertanyaan dengan jawaban sederhana, saya juga tidak percaya itu adalah pertanyaan yang bahkan perlu ditanyakan tentang pohon keputusan.

Konsultasikan Aslan et al. , Menghitung Dimensi Pohon-VC (2009). Mereka mengatasi masalah ini dengan melakukan pencarian lengkap, di pohon-pohon kecil, dan kemudian memberikan perkiraan, rumus rekursif untuk memperkirakan dimensi VC pada pohon yang lebih besar. Mereka kemudian menggunakan rumus ini sebagai bagian dari algoritma pemangkasan. Seandainya ada jawaban dalam bentuk tertutup untuk pertanyaan Anda, saya yakin mereka akan menyediakannya. Mereka merasa perlu untuk beralih melalui pohon-pohon kecil sekalipun.

Nilai dua sen saya. Saya tidak yakin bahwa berbicara tentang dimensi VC untuk pengambilan keputusan sangat berarti. Pertimbangkan respons d dimensi, di mana setiap item adalah hasil biner. Ini adalah situasi yang dipertimbangkan oleh Aslan et al. Ada 2d hasil yang mungkin dalam ruang sampel ini dan 2d kemungkinan pola respons. Jika saya membangun pohon yang lengkap, dengan tingkat d dan 2d daun, maka saya dapat menghancurkan pola 2dtanggapan. Tapi tidak ada yang cocok dengan pohon lengkap. Biasanya, Anda mengenakan dan kemudian memangkas kembali menggunakan validasi silang. Apa yang Anda dapatkan pada akhirnya adalah pohon yang lebih kecil dan lebih sederhana, tetapi set hipotesis Anda masih besar. Aslan et al. coba perkirakan dimensi VC keluarga pohon isomorfik. Setiap keluarga adalah set hipotesis dengan dimensi VC sendiri.

masukkan deskripsi gambar di sini

Gambar sebelumnya menggambarkan pohon untuk ruang dengan yang menghancurkan 4 poin: . Entri keempat adalah "respons". Aslan et al. akan menganggap pohon dengan bentuk yang sama, tetapi menggunakan dan , katakanlah, menjadi isomorfik dan bagian dari set hipotesis yang sama. Jadi, meskipun hanya ada 3 daun pada masing-masing pohon ini, himpunan pohon-pohon tersebut dapat menghancurkan 4 poin dan dimensi VC adalah 4 dalam hal ini. Namun, pohon yang sama dapat terjadi dalam ruang dengan 4 variabel, dalam hal ini dimensi VC akan menjadi 5. Jadi itu rumit.d=3(1,0,0,1),(1,1,1,0),(0,1,0,1),(1,1,0,1)x1x2

Solusi brute force Aslan tampaknya bekerja cukup baik, tetapi apa yang mereka dapatkan sebenarnya bukan dimensi VC dari algoritma yang digunakan orang, karena ini bergantung pada pemangkasan dan validasi silang. Sulit untuk mengatakan apa sebenarnya ruang hipotesis itu, karena pada prinsipnya, kita mulai dengan sejumlah pohon yang mungkin hancur, tetapi kemudian memangkas kembali ke sesuatu yang lebih masuk akal. Bahkan jika seseorang mulai dengan pilihan a priori untuk tidak melampaui dua lapisan, katakanlah, mungkin masih ada kebutuhan untuk memangkas pohon. Dan kita tidak benar-benar membutuhkan dimensi VC, karena validasi silang terjadi setelah kesalahan sampel langsung.

Agar adil bagi Aslan et al., Mereka tidak menggunakan dimensi VC untuk mengkarakterisasi ruang hipotesis mereka. Mereka menghitung dimensi VC cabang dan menggunakan kuantitas itu untuk menentukan apakah cabang harus dipotong. Pada setiap tahap, mereka menggunakan dimensi VC dari konfigurasi spesifik cabang yang sedang dipertimbangkan. Mereka tidak melihat dimensi VC masalah secara keseluruhan.

Jika variabel Anda kontinu dan responsnya bergantung pada mencapai ambang, maka pohon keputusan pada dasarnya menciptakan sekelompok perceptron, sehingga dimensi VC mungkin akan lebih besar dari itu (karena Anda harus memperkirakan titik cutoff untuk membuat pemisahan) . Jika responsnya bergantung secara monoton pada respons yang berkelanjutan, CART akan memotongnya menjadi beberapa langkah, mencoba menciptakan model regresi. Saya tidak akan menggunakan pohon dalam kasus itu - mungkin gam atau regresi.

Placidia
sumber