variabel dummy pemusatan dan penskalaan

13

Saya memiliki kumpulan data yang berisi variabel kategorikal dan variabel kontinu. Saya disarankan untuk mengubah variabel kategori sebagai variabel biner untuk setiap level (yaitu, A_level1: {0,1}, A_level2: {0,1}) - Saya pikir beberapa orang menyebutnya "variabel dummy".

Dengan itu, apakah akan menyesatkan untuk kemudian memusatkan dan skala seluruh set data dengan variabel baru? Sepertinya saya akan kehilangan makna "on / off" dari variabel.

Jika itu menyesatkan, apakah itu berarti saya harus memusatkan dan menskalakan variabel kontinu secara terpisah dan kemudian menambahkannya kembali ke kumpulan data saya?

TIA.

pengguna2300643
sumber
1
Apakah itu dapat diterima atau masuk akal untuk pusat dan / atau variabel dummy skala tergantung pada aplikasi, pada analisis yang Anda rencanakan dan pertimbangan spesifik tugas. Jadi tidak ada jawaban yang benar. Secara umum, formulasi kasar, seringkali boleh dilakukan dengan variabel prediktor dummy; seringkali merupakan ide yang buruk dengan variabel dummy respons atau dalam metode multivariat seperti pengelompokan atau analisis faktor.
ttnphns

Jawaban:

13

Ketika membangun variabel dummy untuk digunakan dalam analisis regresi, setiap kategori dalam variabel kategori kecuali satu harus mendapatkan variabel biner. Jadi Anda harus memiliki misalnya A_level2, A_level3 dll. Salah satu kategori tidak boleh memiliki variabel biner, dan kategori ini akan berfungsi sebagai kategori referensi. Jika Anda tidak menghilangkan salah satu kategori, analisis regresi Anda tidak akan berjalan dengan baik.

Jika Anda menggunakan SPSS atau R, saya tidak berpikir penskalaan dan pemusatan seluruh kumpulan data umumnya akan menjadi masalah karena paket perangkat lunak tersebut sering menafsirkan variabel dengan hanya dua tingkat sebagai faktor, tetapi mungkin tergantung pada metode statistik tertentu yang digunakan . Bagaimanapun, tidak masuk akal untuk menskala dan memusatkan variabel biner (atau kategorikal) sehingga Anda hanya harus memusatkan dan menskala variabel kontinu jika Anda harus melakukan ini.

JonB
sumber
2
Perasaan saya yang kuat adalah bahwa satu-satunya bagian dari jawaban yang benar-benar menjawab pertanyaan OP adalah kalimat terakhir - bagian yang tidak dapat dijelaskan. Anda mengatakan jangan skala mereka tetapi jangan menjelaskan mengapa. Sementara itu, topiknya tidak terlalu mudah.
ttnphns
Ini hanya satu cara pengkodean variabel kategorikal. Saya tidak punya waktu untuk menulis jawaban lengkap, tetapi mencari "kontras" mungkin membantu. Jawaban yang relevan adalah stats.stackexchange.com/questions/60817/…
user20637
3

Jika Anda menggunakan R dan menskalakan variabel dummy atau variabel yang memiliki 0 atau 1 untuk skala antara 0 dan 1 saja, maka tidak akan ada perubahan pada nilai-nilai variabel ini, sisa kolom akan diskalakan.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))
Shekhar Sahu
sumber
Tip menarik. Terima kasih sudah berbagi. Sudah beberapa saat sejak saya bertanya, tetapi senang melihat saya masih bisa belajar dari posting lama ini.
user2300643
2

Maksud dari rata-rata centering dalam regresi adalah untuk membuat intersep lebih dapat diinterpretasikan. Artinya, id yang Anda maksud pusatkan semua variabel dalam model regresi Anda, lalu intersep (disebut Constant in SPSS output) sama dengan mean keseluruhan keseluruhan untuk variabel hasil Anda. Yang bisa nyaman saat menafsirkan model akhir.

Adapun yang dimaksud dengan variabel dummy pemusatan, saya baru saja berbicara dengan seorang profesor saya tentang variabel dummy pemusatan rata-rata dalam model regresi (dalam kasus saya model multilevel desain blok acak dengan 3 level) dan kesimpulan saya adalah pemusatan berarti variabel dummy tidak benar-benar mengubah interpretasi koefisien regresi (kecuali bahwa solusinya sepenuhnya terstandarisasi). Biasanya, tidak perlu dalam regresi untuk menginterpretasikan nilai rata-rata tingkat pusat yang sebenarnya - hanya koefisien. Dan ini pada dasarnya tidak berubah - sebagian besar. Dia mengatakan itu sedikit berubah karena itu standar yang, untuk boneka, tidak intuitif untuk dipahami.

Peringatan: Itulah pemahaman saya ketika saya meninggalkan kantor profesor saya. Tentu saja saya bisa salah.

Katie
sumber