Bagaimana titik pemisahan untuk variabel kontinu di pohon keputusan?

14

Saya punya dua pertanyaan terkait pohon keputusan:

  1. Jika kita memiliki atribut kontinu, bagaimana kita memilih nilai pemisahan?

    Contoh: Usia = (20,29,50,40 ....)

  2. Bayangkan bahwa kita memiliki atribut kontinyu yang memiliki nilai-nilai dalam R . Bagaimana saya bisa menulis algoritma yang menemukan titik split v , agar ketika kita membagi f dengan v , kita memiliki gain minimum untuk f > v ?fRvfvf>v

WALID BELRHALMIA
sumber

Jawaban:

18

(20,29,40,50)(24.5,34.5,45)

Anda dapat menghemat waktu perhitungan dengan hanya memeriksa titik perpecahan yang terletak di antara contoh kelas yang berbeda, karena hanya pemisahan ini yang dapat optimal untuk mendapatkan informasi.

timleathart
sumber
@timleart, OP berharap untuk menjadi "sendok makan" implementasi di R. Saya ingin tahu apa yang telah OP coba sejauh ini dengan mengacu pada implementasi R? Bagaimana kalau "menunjukkan usaha", OP?
mnm
@timathart tetapi normal untuk atribusi f kami memilih split v yang memberikan gain informasi terbesar untuk f> v, tetapi di sini lihat pertanyaan yang mereka minta untuk mendapatkan minimum.
WALID BELRHALMIA
@timleathart, Bisakah Anda menjelaskan lebih lanjut? Saya perlu tahu cara terbaik untuk mengidentifikasi pemisahan seperti itu dan memeriksa perolehan informasi. Katakanlah satu variabel memiliki banyak variasi dan lainnya hampir konstan. Berapa banyak perpecahan seperti itu yang harus ada?
Arpit Sisodia
@timeleathart, perpanjang jawaban Anda, perpecahan ini tidak akan dioptimalkan ketika nilainya (20,21,22,23, 45,67,80). tidakkah minimal untuk iterasi maksimum dapat digunakan di sini? Harap perbaiki saya jika saya salah dalam anggapan saya :)
Arpit Sisodia
Ini mengklarifikasi kebingungan saya!
Jinhua Wang