Bagaimana algoritma pembelajaran pohon keputusan menangani nilai yang hilang (di bawah tenda)

Ada beberapa metode yang digunakan oleh berbagai pohon keputusan. Mengabaikan nilai-nilai yang hilang (seperti ID3 dan algoritma lama lainnya) atau memperlakukan nilai-nilai yang hilang sebagai kategori lain (dalam hal fitur nominal) bukan penanganan nyata nilai-nilai yang hilang. Namun pendekatan tersebut digunakan pada tahap awal pengembangan pohon keputusan.

Pendekatan penanganan nyata untuk data yang hilang tidak menggunakan titik data dengan nilai yang hilang dalam evaluasi perpecahan. Namun, ketika node anak dibuat dan dilatih, instance tersebut didistribusikan entah bagaimana.

Saya tahu tentang pendekatan berikut untuk mendistribusikan instance nilai yang hilang ke simpul anak:

semua menuju node yang sudah memiliki jumlah instance terbesar (CART, bukan aturan utama)
distribusikan ke semua anak, tetapi dengan bobot yang berkurang, sebanding dengan jumlah instance dari setiap simpul anak (C45 dan lainnya)
mendistribusikan secara acak ke hanya satu simpul anak tunggal, akhirnya sesuai dengan distribusi kategoris (saya telah melihat bahwa dalam berbagai implementasi C45 dan CART untuk waktu berjalan yang lebih cepat)
membangun, mengurutkan dan menggunakan pengganti untuk mendistribusikan instance ke simpul anak, di mana pengganti adalah fitur input yang paling menyerupai cara fitur pengujian mengirim instance data ke simpul anak kiri atau kanan (CART, jika itu gagal, aturan mayoritas digunakan)

rapaio
sumber

Bagaimana algoritma pembelajaran pohon keputusan menangani nilai yang hilang (di bawah tenda)

Jawaban: