Mengapa gender biasanya diberi kode 0/1 bukan 1/2, misalnya?

25

Saya mengerti logika pengkodean untuk analisis data. Pertanyaan saya di bawah ini adalah tentang penggunaan kode tertentu.

  • Apakah ada alasan mengapa gender sering dikodekan sebagai 0 untuk wanita dan 1 untuk pria?
  • Mengapa pengkodean ini dianggap 'standar'?
  • Bandingkan ini dengan Wanita = 1 dan Pria = 2. Apakah ada masalah dengan pengkodean ini?
Adhesh Josh
sumber
15
Menggunakan skema pengkodean 0/1 pada dasarnya berguna ketika menerapkan model regresi di antara yang lain, meskipun beberapa skema pengkodean dimungkinkan, misalnya -1/1 (tetapi akan mengubah interpretasi koefisien regresi). Seharusnya tidak bingung dengan entri data (yaitu, apa yang Anda masukkan ke dalam database Anda). Dalam hal ini, lebih baik menyimpan label lengkap. Konversikan ke nilai numerik atau buat matriks desain khusus saat Anda membuat model regresi. Kalau tidak, saya berharap semoga Anda tahu apa artinya 0 dan 1 dalam 5 tahun.
chl
Saya telah melihat kode gender dalam database sebagai pria, wanita dan tidak dikenal.
Aksakal
2
Saya pikir pertanyaan ini sebaiknya dianggap sebagai dua pertanyaan yang membingungkan. Pertanyaan yang lebih besar adalah mengapa menggunakan 0-1 coding daripada yang lain untuk indikator atau variabel dummy. Pertanyaan yang lebih kecil adalah mengapa menggunakan 1 untuk pria dan 0 untuk wanita, yang satu jawaban singkatnya adalah banyak pengkodean lain yang digunakan, termasuk kebalikan dari 1 untuk wanita, dll, dan juga berbagai pengkodean kompleks yang memungkinkan untuk jenis kelamin yang tidak diketahui dan untuk kategori gender lainnya.
Nick Cox

Jawaban:

38

Alasan lebih suka nol-satu pengkodean variabel biner:

  • Mean dari nol-satu variabel mewakili proporsi dalam kategori yang diwakili oleh nilai satu (misalnya, persentase laki-laki).
  • Dalam regresi sederhana mana adalah variabel nol-satu, konstanta memiliki interpretasi langsung (misalnya, adalah rata-rata untuk wanita).x a yy=a+bxxay
  • Setiap pengkodean variabel biner di mana perbedaan antara dua nilai adalah satu (yaitu, nol-satu, tetapi juga satu-dua) memberikan interpretasi langsung ke koefisien regresi (misalnya, adalah efek dari berpindah dari perempuan ke laki-laki pada y).b

Berbagai macam poin tentang pengkodean variabel biner:

  • Setiap pengkodean variabel biner yang mempertahankan urutan kategori (misalnya, perempuan = 0, laki-laki = 1; perempuan = 1, laki-laki = 2; perempuan = 1007, laki-laki = 2000; dll.) Tidak akan mempengaruhi korelasi variabel biner dengan variabel lain.
  • Setiap tabel yang melaporkan variabel biner dengan cara ini harus memperjelas bagaimana variabel dikodekan. Juga bermanfaat untuk memberi label pada variabel berdasarkan kategori yang mewakili nilai satu: misalnya, y = a + b * Malebukan y = a + b * Gender.
  • Untuk beberapa variabel biner, satu kategori yang lebih alami harus dikodekan sebagai satu. Misalnya, ketika melihat perbedaan antara perlakuan dan kontrol, kontrol harus nol, dan pengobatan harus menjadi satu, karena koefisien regresi paling baik dianggap sebagai efek dari perawatan.
  • Membalik kategori (misalnya, membuat wanita = 1 dan pria = 0, daripada wanita = 0 dan pria = 1) akan membalik tanda korelasi dan koefisien regresi.
  • Dalam hal jenis kelamin, biasanya tidak ada alasan alami untuk mengkode variabel wanita = 0, pria = 1, versus pria = 0, wanita = 1. Namun, konvensi mungkin menyarankan satu pengkodean lebih akrab bagi pembaca; atau memilih pengkodean yang membuat koefisien regresi positif dapat memudahkan interpretasi. Juga, dalam beberapa konteks, satu jenis kelamin dapat dianggap sebagai kategori referensi; misalnya, jika Anda mempelajari pengaruh menjadi perempuan dalam profesi yang didominasi laki-laki terhadap pendapatan, mungkin masuk akal untuk mengkode laki-laki = 0, dan perempuan = 1, untuk berbicara tentang efek menjadi perempuan.
  • Penskalaan koefisien regresi dengan cara yang bijaksana dapat memiliki efek yang kuat pada interpretabilitas koefisien regresi. Andrew Gelman membahas ini sedikit; lihat misalnya makalahnya tahun 2008 input regresi Scaling dengan membaginya dengan dua standar deviasi (PDF) dalam Statistics in Medicine , 27, 2865-2873.
  • Pengkodean pria dan wanita sebagai -1 dan +1 adalah opsi lain yang dapat memberikan koefisien yang bermakna (lihat "apa itu pengkodean efek" ).
Jeromy Anglim
sumber
18
Eh, saya selalu berpikir alasan alami untuk kode wanita = 0 dan pria = 1 adalah "anatomi" ...
Matt Parker
2
@ tikar lucu. Saya tidak pernah berpikir seperti itu. Saya selalu dipengaruhi oleh lensa gelar Seni saya, di mana Anda diajari tentang bagaimana beberapa feminis mengkritik ideologi yang melihat perempuan didefinisikan oleh kurangnya sesuatu yang dimiliki oleh laki-laki. Melalui lensa seperti itu, agak lucu, pengkodean gender menjadi masalah politik :-)
Jeromy Anglim
13
Sebagai kebiasaan, saya selalu mengubah nama variabel gender menjadi sesuatu seperti "Perempuan", untuk memperjelas apa artinya skema pengkodean 0/1.
Fomite
Jeromy, apakah Anda ingin mengamati stats.meta.stackexchange.com/a/4881/3277 diskusi tentang apakah kita memerlukan tag terpisah [variabel-variabel] dan katakan pro / kontra Anda dalam komentar?
ttnphns
Mempertimbangkan pasangan kromosom seks X dan Y, perempuan memiliki XX dan laki-laki memiliki kromosom XY. Mengambil X = 0 dan Y = 1, kita dapat menemukan bahwa perempuan = XX = 00 = 0 dan laki-laki = XY = 01 = 1.
Gürol Canbek
14

Itu membuatnya lebih mudah untuk menafsirkan hasil. Misalkan Anda memiliki beberapa data ketinggian:

Woman A: 165
Woman B: 170
Woman C: 175
Man D: 170
Man E: 180
Man F: 190 

dan Anda mengambil regresi formulir Height = a + b * Gender + Residual.

Dengan variabel dummy 0,1 Anda akan mendapatkan perkiraan a170 menjadi tinggi rata-rata wanita dan bdari 10 menjadi perbedaan antara ketinggian rata-rata pria dan wanita.

Dengan 1,2 variabel dummy Anda akan mendapatkan estimasi a160 yang lebih sulit untuk ditafsirkan.

Henry
sumber
Terima kasih. Saya belajar statistik pada 'kecepatan cahaya' karena ini merupakan persyaratan pekerjaan baru saya. Apakah pengkodean ini masih berlaku untuk analisis korelasi.
Adhesh Josh
1
@Adhesh Jika Anda maksud korelasi antara dua variabel kuantitatif, maka tidak ada masalah pengkodean: cukup gunakan langkah-langkah mentah. Jika pertanyaan Anda adalah tentang hubungan antara dua variabel kualitatif, maka Anda dapat mempertimbangkan untuk mengajukan pertanyaan baru, tetapi terus terang tidak ada banyak kesulitan dalam kasus ini (kecuali jika Anda ingin menggunakan skor spasi yang tidak merata untuk kategori variabel, tetapi ini telah dijawab di tempat lain dalam hal ini) situs).
chl
4
@Menambahkan Coding biner 1/2 atau 0/1 akan membuat Anda tidak mempengaruhi koefisien korelasi Anda. 0/1 juga memiliki keunggulan bahwa rata-rata variabel akan menjadi persen pria atau wanita, tergantung mana yang mana. Skema pengkodean lain mungkin berguna untuk menafsirkan berbagai jenis analisis.
Michael Bishop
2

Saya berasumsi bahwa ini adalah karena jenis bidang yang sering digunakan untuk menyimpan gender adalah bidang bit, dan bidang bit dalam SQL hanya dapat memiliki nilai 0 atau 1. Ketika Anda membuang data, itu muncul sebagai 0 atau 1, dan jadi itu sebabnya Anda mendapatkan nilai-nilai tertentu.

Jika Anda ingin menggunakan 1 dan 2, Anda harus menggunakan tipe bidang yang lebih besar, yang akan mengambil lebih banyak ruang, dan dengan demikian membuat keseluruhan database sedikit lebih besar.

ungu muda
sumber
Sebagai seorang programmer SQL, ini adalah reaksi pertama saya juga. Saya tidak yakin tentang alasan matematika murni untuk menggunakan 0 dan 1 untuk gender, tapi saya tahu pasti bahwa beberapa dorongan berasal dari kebutuhan untuk menggunakan tipe data terkecil yang mungkin. Standar industri dikembangkan dari kebiasaan dan semua orang sejalan. Mungkin bermanfaat untuk memeriksa riwayat standar ANSI untuk ini. Saat ini ada dorongan untuk membuat DBA menggunakan byte atau kolom integer kecil untuk gender, untuk menunjukkan pengecualian yang tidak biasa seperti "entitas perusahaan" atau "tidak ditentukan" tetapi banyak database lama masih mencerminkan standar lama.
SQLServerSteve
2

Saya mempunyai seorang profesor yang menyarankan agar kita membuat kode "secara biologis" dengan wanita menjadi 0 dan pria 1 - untuk mencerminkan anatomi. Saya tidak berpikir itu hal yang paling sensitif, atau PC untuk dikatakan di kelas, tapi jelas mudah diingat ketika melihat dataset 5 tahun kemudian.

Cassie
sumber
Ini jelas bukan jawaban "nyata" untuk pertanyaan (mungkin ini lebih merupakan komentar daripada jawaban), tetapi mnemonik jelas salah satu yang banyak orang temukan berguna.
Silverfish
Lebih "biologis" daripada "anatomis", saya diajari (meskipun saya curiga "alasan" diciptakan dalam retrospeksi, daripada menjadi yang asli) bahwa 0 digunakan untuk wanita karena itu adalah "default" jenis kelamin - keyakinan adalah bahwa dalam perkembangan embriologis, jalur perempuan diambil kecuali proses intervensi mendorong embrio untuk berdiferensiasi di jalur laki-laki. Ini dulunya kepercayaan yang tersebar luas, tetapi sekarang dianggap ketinggalan zaman : jalur perempuan juga perlu dipicu secara aktif.
Silverfish
1
Dalam hal ini, seharusnya pria tidak diberi kode "00".
Harvey Motulsky
1

Banyak alasan bagus yang diposting sejauh ini, tetapi juga harus refleksif. Mengapa Anda mulai menghitung pada 1? Itu membuat banyak algoritma numerik jauh lebih rumit. Pelabelan dimulai dari 0, bukan 1. Jika Anda belum yakin akan hal ini, saya punya contoh yang bagus mengapa ini penting di http://madhadron.com/?p=69

Mengenai mengapa wanita adalah 0 dan pria adalah 1, mari kita ingat bahwa untuk sebagian besar sejarahnya, seorang ahli statistik kemungkinan besar adalah pria. Ketika ditanya untuk menyebutkan jenis kelamin, yang pertama kali muncul di benak adalah 'wanita'. Segalanya setelah itu mungkin merupakan kecelakaan historis dan rasionalisasi.

pengguna873
sumber
-1

Standar ISO / IEC 5218 memperbarui gagasan ini dengan peta berikut:

0 = not known,
1 = male,
2 = female,
9 = not applicable.

Ini sangat berguna dalam bahasa di mana 0 memaksa untuk nilai yang salah, seperti dalam JavaScript:

if ( !user.gender ) {
    promptForGender();
}
Adam Eivy
sumber
10
Penting untuk dicatat bahwa standar semacam ini benar-benar untuk transmisi dan / atau penyimpanan data. Ini tidak memadai sebagai standar untuk analisis data , yang merupakan pertanyaan khusus.
whuber
-2

Cara saya melihatnya secara pribadi adalah 0 secara fisik mewakili perempuan, karena itu adalah bentuk rahim, dan dianggap feminin ... di hampir semua ilmu (yaitu dalam bagan silsilah biologi / genetika) lingkaran, atau nol mewakili perempuan. Di mana bentuk tepi yang lebih lurus (segitiga, bujur sangkar, atau 1s) cenderung mewakili jenis kelamin laki-laki. Pemahaman sederhana ini membuatnya mudah untuk selalu mengingat mana yang bagi saya.

Meskipun pada akhirnya jika Anda adalah orang yang mengkode dan menganalisis data sendiri, Anda dapat meletakkan angka apa pun yang Anda inginkan, umumnya selama ada kunci untuk variabel dummy yang Anda gunakan, itu menjadi tidak relevan.

Jillian
sumber
2
Jawaban aneh untuk pertanyaan konyol.
Michael R. Chernick