Saya mengerti logika pengkodean untuk analisis data. Pertanyaan saya di bawah ini adalah tentang penggunaan kode tertentu.
- Apakah ada alasan mengapa gender sering dikodekan sebagai 0 untuk wanita dan 1 untuk pria?
- Mengapa pengkodean ini dianggap 'standar'?
- Bandingkan ini dengan Wanita = 1 dan Pria = 2. Apakah ada masalah dengan pengkodean ini?
data-transformation
binary-data
categorical-encoding
units
Adhesh Josh
sumber
sumber
Jawaban:
Alasan lebih suka nol-satu pengkodean variabel biner:
Berbagai macam poin tentang pengkodean variabel biner:
y = a + b * Male
bukany = a + b * Gender
.sumber
Itu membuatnya lebih mudah untuk menafsirkan hasil. Misalkan Anda memiliki beberapa data ketinggian:
dan Anda mengambil regresi formulir
Height = a + b * Gender + Residual
.Dengan variabel dummy 0,1 Anda akan mendapatkan perkiraan
a
170 menjadi tinggi rata-rata wanita danb
dari 10 menjadi perbedaan antara ketinggian rata-rata pria dan wanita.Dengan 1,2 variabel dummy Anda akan mendapatkan estimasi
a
160 yang lebih sulit untuk ditafsirkan.sumber
Saya berasumsi bahwa ini adalah karena jenis bidang yang sering digunakan untuk menyimpan gender adalah bidang bit, dan bidang bit dalam SQL hanya dapat memiliki nilai 0 atau 1. Ketika Anda membuang data, itu muncul sebagai 0 atau 1, dan jadi itu sebabnya Anda mendapatkan nilai-nilai tertentu.
Jika Anda ingin menggunakan 1 dan 2, Anda harus menggunakan tipe bidang yang lebih besar, yang akan mengambil lebih banyak ruang, dan dengan demikian membuat keseluruhan database sedikit lebih besar.
sumber
Saya mempunyai seorang profesor yang menyarankan agar kita membuat kode "secara biologis" dengan wanita menjadi 0 dan pria 1 - untuk mencerminkan anatomi. Saya tidak berpikir itu hal yang paling sensitif, atau PC untuk dikatakan di kelas, tapi jelas mudah diingat ketika melihat dataset 5 tahun kemudian.
sumber
Banyak alasan bagus yang diposting sejauh ini, tetapi juga harus refleksif. Mengapa Anda mulai menghitung pada 1? Itu membuat banyak algoritma numerik jauh lebih rumit. Pelabelan dimulai dari 0, bukan 1. Jika Anda belum yakin akan hal ini, saya punya contoh yang bagus mengapa ini penting di http://madhadron.com/?p=69
Mengenai mengapa wanita adalah 0 dan pria adalah 1, mari kita ingat bahwa untuk sebagian besar sejarahnya, seorang ahli statistik kemungkinan besar adalah pria. Ketika ditanya untuk menyebutkan jenis kelamin, yang pertama kali muncul di benak adalah 'wanita'. Segalanya setelah itu mungkin merupakan kecelakaan historis dan rasionalisasi.
sumber
Standar ISO / IEC 5218 memperbarui gagasan ini dengan peta berikut:
Ini sangat berguna dalam bahasa di mana 0 memaksa untuk nilai yang salah, seperti dalam JavaScript:
sumber
Cara saya melihatnya secara pribadi adalah 0 secara fisik mewakili perempuan, karena itu adalah bentuk rahim, dan dianggap feminin ... di hampir semua ilmu (yaitu dalam bagan silsilah biologi / genetika) lingkaran, atau nol mewakili perempuan. Di mana bentuk tepi yang lebih lurus (segitiga, bujur sangkar, atau 1s) cenderung mewakili jenis kelamin laki-laki. Pemahaman sederhana ini membuatnya mudah untuk selalu mengingat mana yang bagi saya.
Meskipun pada akhirnya jika Anda adalah orang yang mengkode dan menganalisis data sendiri, Anda dapat meletakkan angka apa pun yang Anda inginkan, umumnya selama ada kunci untuk variabel dummy yang Anda gunakan, itu menjadi tidak relevan.
sumber