Saya memiliki satu set data dengan serangkaian fitur. Beberapa dari mereka adalah biner aktif atau dipecat, tidak aktif atau aktif), dan sisanya bernilai nyata, misalnya .0 = 4564.342
Saya ingin mengumpankan data ini ke algoritme pembelajaran mesin, jadi saya -score semua fitur bernilai nyata. Saya mendapatkannya antara rentang dan sekitar. Sekarang nilai-nilai biner juga bernilai- , oleh karena itu nol menjadi dan yang menjadi .3 - 2 z - 0,222 0,5555
Apakah standardisasi variabel biner seperti ini masuk akal?
Variabel biner dengan nilai 0, 1 dapat (biasanya) diskalakan ke (nilai - rata) / SD, yang mungkin merupakan skor z Anda.
Kendala yang paling jelas tentang itu adalah bahwa jika Anda mendapatkan semua nol atau semua yang kemudian memasukkan SD secara membabi buta akan berarti bahwa skor-z tidak pasti. Ada kasus untuk menetapkan nol juga sejauh nilai - rata sama dengan nol. Tetapi banyak hal statistik tidak masuk akal jika suatu variabel benar-benar konstan. Namun, secara umum, jika SD kecil, ada risiko lebih besar bahwa skor tidak stabil dan / atau tidak ditentukan dengan baik.
Masalah dalam memberikan jawaban yang lebih baik untuk pertanyaan Anda adalah apa yang sedang dipertimbangkan oleh "algoritma pembelajaran mesin". Kedengarannya seperti suatu algoritma yang menggabungkan data untuk beberapa variabel, dan biasanya masuk akal untuk menyediakannya pada skala yang sama.
(KEMUDIAN) Ketika poster asli menambahkan komentar satu per satu, pertanyaan mereka adalah morphing. Saya masih menganggap bahwa (nilai - mean) / SD masuk akal (yaitu tidak masuk akal) untuk variabel biner selama SD positif. Namun, regresi logistik kemudian dinamai sebagai aplikasi dan untuk ini tidak ada keuntungan teoritis atau praktis (dan memang beberapa kehilangan kesederhanaan) untuk apa pun selain memberi makan dalam variabel biner sebagai 0, 1. Perangkat lunak Anda harus dapat mengatasi dengan baik dengan bahwa; jika tidak, tinggalkan perangkat lunak yang mendukung program yang bisa. Dalam hal pertanyaan judul: bisa, ya; seharusnya, tidak.
sumber
Salah satu contoh yang baik di mana dapat berguna untuk melakukan standarisasi dengan cara yang sedikit berbeda diberikan dalam bagian 4.2 dari Gelman dan Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Ini sebagian besar ketika interpretasi koefisien menarik, dan mungkin ketika tidak ada banyak prediktor.
Di sana, mereka membakukan variabel biner (dengan proporsi yang sama 0 dan 1) dengan bukannyaσnormal. Kemudian koefisien terstandarisasi ini mengambil nilai±0,5dan kemudian koefisien tersebut mencerminkan perbandingan antarax=0danx=1secara langsung. Jika skala olehσbukan maka koefisien akan sesuai dengan setengah perbedaan antara nilai yang mungkin darix.
sumber
Apa yang ingin Anda standarisasi, variabel acak biner, atau proporsi?
sumber
Dalam regresi logistik, variabel biner dapat distandarisasi untuk menggabungkannya dengan continuous vars ketika Anda ingin memberikan semuanya non-informatif sebelumnya seperti N ~ (0,5) atau Cauchy ~ (0,5). Standarisasi disarankan sebagai berikut: Ambil jumlah total dan berikan
1 = proporsi 1
0 = 1 - proporsi 1.
-----
Sunting: Sebenarnya saya tidak benar sama sekali, itu bukan standardisasi tetapi pergeseran untuk dipusatkan pada 0 dan berbeda dengan 1 dalam kondisi bawah dan atas, katakanlah bahwa populasi adalah 30% dengan perusahaan A dan 70% lainnya, kita dapat mendefinisikan variabel "Perusahaan A" terpusat untuk mengambil nilai -0,3 dan 0,7.
sumber