Katakanlah saya ingin membuat Logistic Classifier untuk film M. Fitur saya akan seperti usia orang, jenis kelamin, pekerjaan, lokasi. Jadi set latihan akan menjadi seperti:
- Lokasi Pekerjaan Jenis Kelamin Seperti (1) / Tidak Suka (0)
- 23 M Perangkat Lunak US 1
- 24 F Dokter UK 0
dan seterusnya .... Sekarang pertanyaan saya adalah bagaimana saya harus mengukur dan merepresentasikan fitur saya. Salah satu cara saya berpikir: Bagi usia sebagai kelompok umur, jadi 18-25, 25-35, 35 di atas, Jenis kelamin sebagai M, F, Lokasi sebagai AS, Inggris, Lainnya. Sekarang buat fitur biner untuk semua nilai ini, maka usia akan memiliki 3 fitur biner yang masing-masing terkait dengan kelompok umur dan seterusnya. Jadi, 28 tahun Pria dari AS akan diwakili sebagai 010 10 100 (010-> Kelompok Umur 25-35, 10 -> Pria, 100 -> AS)
Apa yang bisa menjadi cara terbaik untuk mewakili fitur di sini? Juga, saya perhatikan dalam beberapa mis. dari sklearn bahwa semua fitur telah diskalakan / dinormalisasi dalam beberapa cara, misalnya Jender diwakili oleh dua nilai, 0,0045 dan -,0,0045 untuk Pria dan wanita. Saya tidak tahu bagaimana melakukan scaling / mormalisasi seperti ini?
sumber
Jawaban:
Kasus biner
Jika Anda ingin fitur Anda menjadi biner, representasi yang bagus untuk nilai kategorikal ( nyata ) adalah yang panas pengkodean (resp. Termometer ). Anda tidak perlu menormalkannya.
Untuk yang panas pengkodean dari fitur kategorikal , Anda cukup mencadangkan satu bit untuk setiap kelas. Karena itu, panjang penyandian ini adalah jumlah kelas fitur Anda. Mari kita ambil contoh negara Anda,
Untuk pengkodean termometer dari fitur nyata / bilangan bulat , Anda harus memilih panjang dan ambang. Untuk contoh usia Anda, Anda telah memilih untuk membagi usia sesuai dengan ambang batas 18,25 dan 35. Pengodeannya akan
Kasus terus menerus
Seperti yang dikatakan BGreene, Anda harus menormalkan nilai ini untuk mempertahankan nilai rata-rata 0 dan standar deviasi 1, yang menjamin stabilitas banyak model regresi. Untuk melakukan itu, cukup kurangi mean empiris dan bagi dengan deviasi standar empiris.
sumber