Apakah Anda harus menormalkan data saat membuat pohon keputusan menggunakan R?

10

Jadi, kumpulan data kami minggu ini memiliki 14 atribut dan setiap kolom memiliki nilai yang sangat berbeda. Satu kolom memiliki nilai di bawah 1 sementara kolom lainnya memiliki nilai yang terdiri dari tiga hingga empat digit penuh.

Kami mempelajari normalisasi minggu lalu dan sepertinya Anda seharusnya menormalkan data ketika mereka memiliki nilai yang sangat berbeda. Untuk pohon keputusan, apakah kasusnya sama?

Saya tidak yakin tentang hal ini tetapi apakah normalisasi akan memengaruhi pohon keputusan yang dihasilkan dari kumpulan data yang sama? Sepertinya tidak seharusnya tapi ...

Jae
sumber

Jawaban:

13

Jenis pohon keputusan paling umum yang Anda temui tidak terpengaruh oleh transformasi monotonik apa pun. Jadi, selama Anda mempertahankan orde, pohon keputusan adalah sama (jelas oleh pohon yang sama di sini saya memahami struktur keputusan yang sama, bukan nilai yang sama untuk setiap tes di setiap simpul pohon).

Alasan mengapa hal itu terjadi adalah karena cara kerja pengotor biasa. Untuk menemukan pemisahan terbaik, pencarian pada setiap dimensi (atribut) titik perpecahan yang pada dasarnya adalah jika klausa yang menargetkan nilai kelompok yang sesuai dengan contoh yang memiliki nilai pengujian kurang dari nilai split, dan di sebelah kanan nilai lebih besar dari sama. Ini terjadi untuk atribut numerik (yang menurut saya adalah kasus Anda karena saya tidak tahu cara menormalkan atribut nominal). Sekarang Anda mungkin memperhatikan bahwa kriteria kurang dari atau lebih besar dari. Yang berarti bahwa informasi nyata dari atribut untuk menemukan perpecahan (dan seluruh pohon) hanya urutan nilai-nilai. Yang berarti selama Anda mengubah atribut Anda sedemikian rupa sehingga pemesanan asli dicadangkan, Anda akan mendapatkan pohon yang sama.

Tidak semua model tidak peka terhadap transformasi semacam itu. Misalnya model regresi linier memberikan hasil yang sama jika Anda melipatgandakan atribut dengan sesuatu yang berbeda dari nol. Anda akan mendapatkan koefisien regresi yang berbeda, tetapi nilai yang diprediksi akan sama. Ini tidak terjadi ketika Anda mengambil log transformasi itu. Jadi untuk regresi linier, misalnya, normalisasi tidak berguna karena akan memberikan hasil yang sama.

Namun ini bukan kasus dengan regresi linier yang dihukum, seperti regresi ridge. Dalam regresi linier yang diberi penalti, kendala diterapkan pada koefisien. Idenya adalah bahwa kendala diterapkan pada jumlah fungsi koefisien. Sekarang jika Anda mengembang atribut, koefisien akan mengempis, yang berarti bahwa pada akhirnya hukuman untuk koefisien itu akan dimodifikasi secara artifisial. Dalam situasi seperti itu, Anda menormalkan atribut agar masing-masing koefisien menjadi 'wajar'.

Semoga ini bisa membantu

rapaio
sumber