Mengapa kita perlu mengubah variabel kategori kode

Misalkan empat kategori Anda adalah warna mata (kode): coklat (1), biru (2), hijau (3), hazel (4) —memulihkan heterokromia, violet, merah, abu-abu, dll. Untuk saat ini.

Sama sekali tidak (yang saat ini dapat saya bayangkan) akan kita maksudkan bahwa hijau coklat, atau hazel biru seperti yang disiratkan oleh kode kita, meskipun dan . $= 3\times$ $=2\times$ $3=3\times1$ $4 = 2 \times 2$

Karena itu (kecuali kami karena beberapa alasan memang ingin makna seperti itu masuk ke dalam analisis kami), kami perlu menggunakan semacam pengkodean. Dummy coding adalah salah satu contoh, yang menghilangkan hubungan seperti itu dari cerita statistik yang ingin kami ceritakan tentang warna mata. Pengkodean efek dan pengkodean Heckman adalah contoh lain.

Pembaruan: contoh Anda dari dua variabel untuk empat kategori tidak sesuai dengan pemahaman saya tentang istilah "kode dummy" yang biasanya mencakup penggantian $k$ kategori (misalnya 4) dengan variabel dummy (mengurutkan pengamatan berdasarkan kategori): $k-1$

id  category  dummy1 dummy2 dummy3
 1         1       1      0      0
 2         1       1      0      0
 3         2       0      1      0
 4         2       0      1      0
 5         3       0      0      1
 6         3       0      0      1
 7         4       0      0      0
 8         4       0      0      0

Di sini kategori 4 adalah kategori referensi, dengan asumsi bahwa ada konstanta dalam model Anda, seperti:

y = β_{0} + β_{1} d 1 + β_{2} d 2 + β_{3} d 3 + ε

$y = \beta_{0} + \beta_{1}d1 + \beta_{2}d2 + \beta_{3}d3 + \varepsilon$

di mana adalah nilai rata-rata ketika kategori = 4, dan istilah terkait dengan setiap dummy menunjukkan dengan jumlah apa berubah dari untuk kategori itu. $\beta_{0}$ $y$ $\beta$ $y$ $\beta_{0}$

Jika Anda tidak memiliki istilah konstanta ( ) dalam model, maka Anda memerlukan satu lagi prediktor "dummy" (mungkin lebih jarang disebut "variabel indikator"), sehingga boneka-boneka tersebut kemudian masing-masing berperilaku sebagai konstanta model untuk setiap kategori : $\beta_{0}$

y = β_{1} d 1 + β_{2} d 2 + β_{3} d 3 + β_{4} d 4 + ε

$y = \beta_{1}d1 + \beta_{2}d2 + \beta_{3}d3 + \beta_{4}d4 + \varepsilon$

Jadi ini akan membuat orang sekitar masalah menciptakan hubungan kuantitatif tidak masuk akal antara kode kategori yang saya sebutkan pada awalnya, tapi mengapa tidak menggunakan user12331-coding seperti yang Anda sarankan? kandidat pengguna-coding12121 A:

id  category   code1  code2
 1         1       0      ?
 2         1       0      ?
 3         2       1      ?
 4         2       1      ?
 5         3       ?      0
 6         3       ?      0
 7         4       ?      1
 8         4       ?      1

Anda benar untuk menunjukkan bahwa seseorang dapat mewakili 4 nilai menggunakan 2 variabel biner (yaitu dua-bit). Sayangnya, satu pendekatan untuk ini (kode1 untuk kategori 1 dan 2, dan kode2 untuk kategori 3 dan 4) meninggalkan ambiguitas yang ditunjukkan oleh tanda tanya: nilai apa yang akan ada di sana ?!

Nah, bagaimana dengan pendekatan kedua, sebut saja user12331-coding kandidat B:

id  category   code1  code2
 1         1       0      0
 2         1       0      0
 3         2       0      1
 4         2       0      1
 5         3       1      0
 6         3       1      0
 7         4       1      1
 8         4       1      1

Sana! Tidak ada ambiguitas, kan? Kanan! Sayangnya, semua pengkodean ini mewakili jumlah numerik 1-4 (atau 0-3) dalam notasi biner , yang membuat masalah untuk memberikan hubungan kuantitatif yang tidak diinginkan ke dalam kategori.

Oleh karena itu, perlu skema pengkodean lain.

$\beta$

Alexis
sumber

Sementara jawaban ini menunjukkan alasan mengapa kita tidak dapat menggunakan satu variabel (yaitu bahwa kita memang membutuhkan 'semacam pengkodean'), itu tidak (belum) menjelaskan mengapa kita tidak dapat melakukannya dengan mengatakan dua variabel, seperti OP menyarankan dalam pertanyaan.

Glen_b -Reinstate Monica

@Glen_b Terima kasih. Saya harap pembaruan saya telah membantu mengatasi.

Alexis

Perhatikan bahwa 2 variabel biner cukup untuk mewakili 4 kategori [(0,0), (0,1), (1,0), (1,1)], tetapi bukan cara yang tepat untuk membuat dummy kode untuk analisis. OP tampaknya salah coding.

Ellis Valentiner

@ user12202013 Ya. Seperti dalam contoh terakhir saya.

Alexis

Bagaimana jika saya melakukan pengkodean biner menggunakan dua variabel seperti yang disarankan oleh OP, tetapi kemudian jika tujuannya adalah prediksi, maka bukankah sebuah non-parametrik, non-linear classifier / regressor bekerja sama baiknya?

tool.ish

Mengapa kita perlu mengubah variabel kategori kode

Jawaban: