“Variabel Dummy” versus “variabel indikator” untuk data nominal / kategorikal

"Variabel Dummy" dan "variabel indikator" adalah label yang sering digunakan istilah untuk menggambarkan keanggotaan dalam kategori dengan pengkodean 0/1; biasanya 0: Bukan anggota kategori, 1: Anggota kategori.

Pada 11/26/2014 pencarian cepat di scholar.google.com (dengan kutipan terlampir) mengungkapkan "variabel dummy" digunakan di sekitar 318.000 artikel, dan "variabel indikator" digunakan di sekitar 112.000 artikel. Istilah "variabel dummy" juga memiliki arti dalam matematika non-statistik dari " variabel terikat " yang kemungkinan berkontribusi pada penggunaan yang lebih besar dari "variabel dummy" dalam artikel yang diindeks.

Pertanyaan saya yang ditautkan:

Apakah istilah ini selalu bersinonim (dalam statistik)?
Apakah salah satu dari istilah ini dapat diterima diterapkan ke bentuk pengkodean kategoris lainnya (mis. Pengkodean efek , pengkodean Helmert, dll. )?
Apa alasan statistik atau disipliner yang ada untuk memilih satu istilah daripada yang lain?

categorical-data terminology categorical-encoding Alexis
sumber

Saya cenderung menggunakan "variabel indikator" untuk kondisi biner, misalnya jenis kelamin mungkin dikodekan maledengan nilai 1atau 0. Jika ada variabel kategori dengan lebih dari 2 kategori yang kemudian diperluas menjadi variabel indikator untuk keanggotaan di setiap level, saya akan menggunakan "variabel dummy" untuk menggambarkan set variabel indikator itu.

Gregor - mengembalikan Monica

Saya pikir maksud Anda seks mungkin dikodekan sebagai 1 atau 0, gender adalah konstruksi yang jauh lebih rumit. (dalam hal ini seks juga bisa lebih rumit);)

Alexis

titik diambil dengan baik, diedit ke sex.

Gregor - mengembalikan Monica

Saya cenderung menyebut variabel indikator seperti itu male, di mana 1 berarti benar (dalam hal ini laki-laki) dan 0 berarti salah (dalam hal ini perempuan). Jika saya menggunakan nama variabel, sexsaya harus melihat bagaimana saya mengkodekan variabel itu setiap kali saya kembali ke dataset itu.

Maarten Buis

Saya telah mendengar berbagai cerita tentang "variabel dummy" menjadi liar dan sayangnya disalahtafsirkan oleh khalayak non-teknis sebagai menyiratkan penghinaan atau penghinaan. Mereka memalukan dan cukup meyakinkan untuk membuat saya menentang istilah tersebut. "Indikator" bagi saya jelas dan langsung.

Nick Cox

Jawaban:

Saya akan mengatakan "variabel dummy" adalah cara yang lebih umum untuk merujuk ke (salah satu) variabel numerik yang mewakili (bersama-sama mewakili) prediktor kategori; oleh karena itu istilah ini juga berlaku untuk yang digunakan dalam Helmert & effect coding ^† . Itu terutama karena penggunaan umum "dummy" berarti "stand-in". "Variabel indikator" Saya terkait dengan fungsi indikator ^‡ —jadi hanya bisa satu atau nol untuk menunjukkan memiliki atau tidak memiliki beberapa properti; oleh karena itu istilah ini hanya berlaku untuk yang digunakan dalam pengkodean tingkat referensi ^※ . Tentu saja beberapa orang menggunakan "dummy coding" yang berarti "coding level referensi"; mereka mungkin memiliki definisi yang lebih terbatas tentang "variabel dummy", atau setidaknya harus memiliki.

† Dan jika Anda tidak memanggil mereka "boneka", apa yang harus dilakukan Anda sebut mereka?

$x_i$ $i$ $u_i$ $M$

x_{i} = 1_{M} (u_{i}) = {\begin{cases} 1 & w h e n u_{i} \in M \\ 0 & w h e n u_{i} \notin M \end{cases}

$x_i=\boldsymbol{1}_\mathrm{M}(u_i)=\left\{ \begin{array}{l l} 1 & \mathrm{when}\ u_i \in M\\ 0 & \mathrm{when}\ u_i \notin M\\ \end{array}\right.$

$\boldsymbol{1}_M(\cdot)$ $M$ .

※ Atau, seperti yang ditunjukkan @gung, pengkodean level-rata.

Scortchi - Reinstate Monica
sumber

Huh ... dapatkah Anda memberikan tautan ke beberapa sumber daya yang memotivasi hal itu? Dalam pengalaman saya "variabel dummy" digunakan untuk 0/1 banyak coding. Tidak yakin saya telah melihat dummy digunakan seperti yang Anda sarankan, dan tahu orang lain menggunakannya dalam arti yang berlawanan. Sebagai contoh, Alkharusi, H. (2012) "Variabel Kategorikal dalam Analisis Regresi: Perbandingan Dummy dan Efek Coding" International Journal of Education 4 (2): 202-210.

Alexis

Saya tidak mengatakan "variabel dummy" tidak digunakan untuk pengkodean 0/1, hanya saja itu dapat digunakan dalam arti yang lebih umum.

Scortchi

Memang kertas yang Anda kutip mengatakan bahwa, menggunakan efek pengkodean, "variabel dummy mengambil nilai 1, 0, dan -1". (Tentu saja saya pikir mereka seharusnya menyebut "dummy coding" sesuatu yang lain jika mereka akan mengatakan itu.)

Scortchi - Reinstate Monica

Got ya ... untuk pertanyaan dari superscript belati Anda, saya cenderung menyebutnya "variabel kategori menggunakan pengkodean XXX".

Alexis

Intinya dibuat oleh Knuth di arxiv.org/abs/math/9205211. Ia mengaitkan gagasan itu dengan KE Iverson. Singkatnya, kita tidak perlu menemukan atau menjalankan fungsi indikator tetapi ikuti dalam diskusi formal apa yang dilakukan perangkat lunak kita untuk kita.

Nick Cox

@Scortchi telah memberikan jawaban yang bagus di sini. Biarkan saya menambahkan satu poin kecil. Bahkan dengan menggunakan definisi variabel indikator yang lebih ketat, ini masih dapat dikaitkan dengan (setidaknya) dua skema pengkodean yang berbeda untuk data kategorikal dalam model tipe regresi: yaitu. coding level referensi dan level berarti coding . Dengan pengodean level means, Anda memiliki variabel kategorikal $k$ level yang diwakili dengan $k$ variabel indikator, tetapi Anda tidak menyertakan vektor $1$ s untuk intersep (yaitu intersep ditekan). (Untuk penjelasan yang lebih lengkap, dengan contoh-contoh model matriks, lihat jawaban saya di sini: Bagaimana regresi logistik memiliki prediktor faktorial dan tidak ada intersep? ) Ketika hanya ada satu variabel kategori tunggal, ini menghasilkan keluaran model dengan cara yang sederhana dan mungkin disukai oleh beberapa orang. (Untuk contoh di mana menggunakan skema ini memfasilitasi perbandingan yang menarik, lihat jawaban saya di sini: Mengapa nilai estimasi dari Predictor Unlimited Linear Terbaik (BLUP) berbeda dari Estimator Linear Tidak Ditentukan Terbaik (BIRU)? )

gung - Pasang kembali Monica
sumber