Diketahui bahwa ketika membangun pohon keputusan, kami membagi variabel input secara mendalam dan menemukan pemisahan 'terbaik' dengan pendekatan uji statistik atau pendekatan fungsi Pengotor.
Pertanyaan saya adalah ketika kita menggunakan variabel kontinu sebagai variabel input (hanya beberapa nilai duplikat), jumlah pemisahan yang mungkin bisa sangat besar, untuk menemukan pemisahan 'terbaik' akan memakan waktu. Bagaimana ilmuwan data akan menanganinya?
Saya telah membaca beberapa bahan yang orang akan lakukan pengelompokan tingkat input untuk membatasi kemungkinan perpecahan. ( contoh ). Namun, mereka tidak menjelaskan bagaimana hal itu dilakukan. Apa yang kita mendasari untuk mengelompokkan variabel univariat? Apakah ada sumber daya untuk rincian lebih lanjut atau ada yang bisa menjelaskan secara detail?
Terima kasih!
Jawaban:
Metode yang umum adalah memeriksa hanya nampan tertentu sebagai titik / ambang pemisahan. Saya pikir inilah yang dimaksud oleh penulis presentasi yang Anda posting. Katakanlah Anda memiliki input acak variabel kontinu dengan 10 sampelX
Mungkin Anda tidak memeriksa setiap nilai dari 10 nilai yang diamati sebagai titik pemisahan. Sebagai gantinya Anda akan menghitung misalnya hanya memeriksa 20%, 40%, 60%, 80% dari data Anda. Jadi, Anda memesan data AndaX
dan "mengelompokkan" data Anda ke dalam nampan
Jadi, Anda hanya perlu memeriksa -1,2.5,4,5, dan 8 sebagai titik pemisah yang mungkin (Anda menginterpolasi secara linear di antara nampan)
Makalah berikut membandingkan tiga aturan tentang bagaimana memilih titik pemisahan untuk diuji. Saya pikir itulah yang Anda cari.
@artikel {chickeringefisien, judul = {Penentuan Efisien Poin Split Dinamis dalam Pohon Keputusan}, penulis = {Chickering, David Maxwell dan Meek, Christopher dan Rounthwaite, Robert}}
sumber