Data saya terdiri dari beberapa pengukuran kontinu dan beberapa variabel dummy mewakili tahun pengukuran telah dilakukan. Sekarang, saya ingin belajar jaringan saraf dengan data. Karena itu, saya zScore-menormalkan semua variabel, termasuk variabel dummy. Namun, saya bertanya-tanya apakah ini merupakan pendekatan yang masuk akal, karena normalisasi variabel dummy mengubah rentang mereka, yang saya kira membuat mereka kurang sebanding jika distribusinya berbeda. Di sisi lain, tidak menormalisasi variabel dummy juga mungkin dipertanyakan, karena tanpa normalisasi pengaruhnya terhadap jaringan mungkin tidak optimal.
Apa pendekatan terbaik untuk menangani variabel dummy, menormalkannya (zScore) atau membiarkannya seperti apa adanya?
categorical-data
normalization
Funkwecker
sumber
sumber
Jawaban:
Normalisasi akan diperlukan jika Anda melakukan beberapa bentuk pengukuran kesamaan.
Variabel Dummy pada dasarnya bertindak sebagai saklar biner. Pengkodean sebagai (0,1) atau (-,5, 0,5) seharusnya tidak berdampak pada hubungan yang ditunjukkannya ke variabel dependen, jika apa yang Anda coba lakukan adalah beberapa bentuk atau regresi atau klasifikasi.
Akan menjadi masalah jika Anda melakukan pengelompokan karena akan tergantung pada skala.
sumber
Normalisasi variabel dummy tidak masuk akal. Biasanya, normalisasi digunakan ketika variabel diukur pada skala yang berbeda sehingga perbandingan yang tepat tidak mungkin. Namun, dengan variabel dummy, seseorang hanya memasukkan informasi biner ke dalam model dan jika dinormalisasi, informasi tentang dampak misalkan satu tahun hilang.
sumber