Normalisasi variabel dummy

8

Data saya terdiri dari beberapa pengukuran kontinu dan beberapa variabel dummy mewakili tahun pengukuran telah dilakukan. Sekarang, saya ingin belajar jaringan saraf dengan data. Karena itu, saya zScore-menormalkan semua variabel, termasuk variabel dummy. Namun, saya bertanya-tanya apakah ini merupakan pendekatan yang masuk akal, karena normalisasi variabel dummy mengubah rentang mereka, yang saya kira membuat mereka kurang sebanding jika distribusinya berbeda. Di sisi lain, tidak menormalisasi variabel dummy juga mungkin dipertanyakan, karena tanpa normalisasi pengaruhnya terhadap jaringan mungkin tidak optimal.

Apa pendekatan terbaik untuk menangani variabel dummy, menormalkannya (zScore) atau membiarkannya seperti apa adanya?

Funkwecker
sumber
4
Anda mungkin menemukan makalah ini oleh A. Gelman stat.columbia.edu/~gelman/research/published/standardizing7.pdf yang
boscovich

Jawaban:

7

Normalisasi akan diperlukan jika Anda melakukan beberapa bentuk pengukuran kesamaan.

Variabel Dummy pada dasarnya bertindak sebagai saklar biner. Pengkodean sebagai (0,1) atau (-,5, 0,5) seharusnya tidak berdampak pada hubungan yang ditunjukkannya ke variabel dependen, jika apa yang Anda coba lakukan adalah beberapa bentuk atau regresi atau klasifikasi.

Akan menjadi masalah jika Anda melakukan pengelompokan karena akan tergantung pada skala.

Arun Jose
sumber
2

Normalisasi variabel dummy tidak masuk akal. Biasanya, normalisasi digunakan ketika variabel diukur pada skala yang berbeda sehingga perbandingan yang tepat tidak mungkin. Namun, dengan variabel dummy, seseorang hanya memasukkan informasi biner ke dalam model dan jika dinormalisasi, informasi tentang dampak misalkan satu tahun hilang.

random_guy
sumber
Jadi, menurut pertanyaan, bagaimana kita menangani fungsi kerugian?
Afshin Amiri