Haruskah satu vektor panas diskalakan dengan atribut numerik

20

Dalam kasus memiliki kombinasi Atribut kategoris dan numerik, saya biasanya mengubah atribut kategorikal menjadi satu vektor panas. Pertanyaan saya adalah apakah saya meninggalkan vektor tersebut sebagaimana adanya dan skala atribut numerik melalui standarisasi / normalisasi, atau haruskah saya skala satu vektor panas bersama dengan atribut numerik?

Suresh Kasipandy
sumber

Jawaban:

11

Setelah dikonversikan ke bentuk numerik, model tidak merespons secara berbeda terhadap kolom-kolom dengan satu kode panas daripada yang mereka lakukan terhadap data numerik lainnya. Jadi ada preseden yang jelas untuk menormalkan nilai {0,1} jika Anda melakukannya dengan alasan apa pun untuk menyiapkan kolom lain.

Efek melakukannya tergantung pada kelas model, dan jenis normalisasi yang Anda terapkan, tetapi saya perhatikan beberapa perbaikan (kecil) ketika penskalaan berarti 0, std 1 untuk data kategorikal satu-panas-disandikan, saat melatih jaringan saraf.

Ini mungkin membuat perbedaan juga untuk kelas model berdasarkan pada metrik jarak.

Sayangnya, seperti kebanyakan dari pilihan semacam ini, seringkali Anda harus mencoba kedua pendekatan dan mengambil satu dengan metrik terbaik.

Neil Slater
sumber
1
Kata-katanya sedikit tidak jelas. Apakah Anda mengatakan bahwa Anda hanya menormalkan kolom satu-panas-disandikan jika Anda telah menormalkan ulang kolom yang tidak ada?
Info5ek
@ Info5ek: Saya mengatakan bahwa mungkin lebih baik untuk menormalkan kolom satu-panas-disandikan, dan jika Anda sudah melakukannya untuk kolom lain maka Anda bisa mencobanya. Tidak ada aturan baku untuk ini, terlalu banyak tergantung pada masalah yang dihadapi.
Neil Slater