"Variabel Dummy" dan "variabel indikator" adalah label yang sering digunakan istilah untuk menggambarkan keanggotaan dalam kategori dengan pengkodean 0/1; biasanya 0: Bukan anggota kategori, 1: Anggota kategori.
Pada 11/26/2014 pencarian cepat di scholar.google.com (dengan kutipan terlampir) mengungkapkan "variabel dummy" digunakan di sekitar 318.000 artikel, dan "variabel indikator" digunakan di sekitar 112.000 artikel. Istilah "variabel dummy" juga memiliki arti dalam matematika non-statistik dari " variabel terikat " yang kemungkinan berkontribusi pada penggunaan yang lebih besar dari "variabel dummy" dalam artikel yang diindeks.
Pertanyaan saya yang ditautkan:
- Apakah istilah ini selalu bersinonim (dalam statistik)?
- Apakah salah satu dari istilah ini dapat diterima diterapkan ke bentuk pengkodean kategoris lainnya (mis. Pengkodean efek , pengkodean Helmert, dll. )?
- Apa alasan statistik atau disipliner yang ada untuk memilih satu istilah daripada yang lain?
male
dengan nilai1
atau0
. Jika ada variabel kategori dengan lebih dari 2 kategori yang kemudian diperluas menjadi variabel indikator untuk keanggotaan di setiap level, saya akan menggunakan "variabel dummy" untuk menggambarkan set variabel indikator itu.sex
.male
, di mana 1 berarti benar (dalam hal ini laki-laki) dan 0 berarti salah (dalam hal ini perempuan). Jika saya menggunakan nama variabel,sex
saya harus melihat bagaimana saya mengkodekan variabel itu setiap kali saya kembali ke dataset itu.Jawaban:
Saya akan mengatakan "variabel dummy" adalah cara yang lebih umum untuk merujuk ke (salah satu) variabel numerik yang mewakili (bersama-sama mewakili) prediktor kategori; oleh karena itu istilah ini juga berlaku untuk yang digunakan dalam Helmert & effect coding † . Itu terutama karena penggunaan umum "dummy" berarti "stand-in". "Variabel indikator" Saya terkait dengan fungsi indikator ‡ —jadi hanya bisa satu atau nol untuk menunjukkan memiliki atau tidak memiliki beberapa properti; oleh karena itu istilah ini hanya berlaku untuk yang digunakan dalam pengkodean tingkat referensi ※ . Tentu saja beberapa orang menggunakan "dummy coding" yang berarti "coding level referensi"; mereka mungkin memiliki definisi yang lebih terbatas tentang "variabel dummy", atau setidaknya harus memiliki.
† Dan jika Anda tidak memanggil mereka "boneka", apa yang harus dilakukan Anda sebut mereka?
※ Atau, seperti yang ditunjukkan @gung, pengkodean level-rata.
sumber
@Scortchi telah memberikan jawaban yang bagus di sini. Biarkan saya menambahkan satu poin kecil. Bahkan dengan menggunakan definisi variabel indikator yang lebih ketat, ini masih dapat dikaitkan dengan (setidaknya) dua skema pengkodean yang berbeda untuk data kategorikal dalam model tipe regresi: yaitu. coding level referensi dan level berarti coding . Dengan pengodean level means, Anda memiliki variabel kategorikalk level yang diwakili dengan k variabel indikator, tetapi Anda tidak menyertakan vektor 1 s untuk intersep (yaitu intersep ditekan). (Untuk penjelasan yang lebih lengkap, dengan contoh-contoh model matriks, lihat jawaban saya di sini: Bagaimana regresi logistik memiliki prediktor faktorial dan tidak ada intersep? ) Ketika hanya ada satu variabel kategori tunggal, ini menghasilkan keluaran model dengan cara yang sederhana dan mungkin disukai oleh beberapa orang. (Untuk contoh di mana menggunakan skema ini memfasilitasi perbandingan yang menarik, lihat jawaban saya di sini: Mengapa nilai estimasi dari Predictor Unlimited Linear Terbaik (BLUP) berbeda dari Estimator Linear Tidak Ditentukan Terbaik (BIRU)? )
sumber