Saya memiliki kumpulan data yang berisi variabel kategorikal dan variabel kontinu. Saya disarankan untuk mengubah variabel kategori sebagai variabel biner untuk setiap level (yaitu, A_level1: {0,1}, A_level2: {0,1}) - Saya pikir beberapa orang menyebutnya "variabel dummy".
Dengan itu, apakah akan menyesatkan untuk kemudian memusatkan dan skala seluruh set data dengan variabel baru? Sepertinya saya akan kehilangan makna "on / off" dari variabel.
Jika itu menyesatkan, apakah itu berarti saya harus memusatkan dan menskalakan variabel kontinu secara terpisah dan kemudian menambahkannya kembali ke kumpulan data saya?
TIA.
categorical-data
data-transformation
centering
pengguna2300643
sumber
sumber
Jawaban:
Ketika membangun variabel dummy untuk digunakan dalam analisis regresi, setiap kategori dalam variabel kategori kecuali satu harus mendapatkan variabel biner. Jadi Anda harus memiliki misalnya A_level2, A_level3 dll. Salah satu kategori tidak boleh memiliki variabel biner, dan kategori ini akan berfungsi sebagai kategori referensi. Jika Anda tidak menghilangkan salah satu kategori, analisis regresi Anda tidak akan berjalan dengan baik.
Jika Anda menggunakan SPSS atau R, saya tidak berpikir penskalaan dan pemusatan seluruh kumpulan data umumnya akan menjadi masalah karena paket perangkat lunak tersebut sering menafsirkan variabel dengan hanya dua tingkat sebagai faktor, tetapi mungkin tergantung pada metode statistik tertentu yang digunakan . Bagaimanapun, tidak masuk akal untuk menskala dan memusatkan variabel biner (atau kategorikal) sehingga Anda hanya harus memusatkan dan menskala variabel kontinu jika Anda harus melakukan ini.
sumber
Jika Anda menggunakan R dan menskalakan variabel dummy atau variabel yang memiliki 0 atau 1 untuk skala antara 0 dan 1 saja, maka tidak akan ada perubahan pada nilai-nilai variabel ini, sisa kolom akan diskalakan.
sumber
Maksud dari rata-rata centering dalam regresi adalah untuk membuat intersep lebih dapat diinterpretasikan. Artinya, id yang Anda maksud pusatkan semua variabel dalam model regresi Anda, lalu intersep (disebut Constant in SPSS output) sama dengan mean keseluruhan keseluruhan untuk variabel hasil Anda. Yang bisa nyaman saat menafsirkan model akhir.
Adapun yang dimaksud dengan variabel dummy pemusatan, saya baru saja berbicara dengan seorang profesor saya tentang variabel dummy pemusatan rata-rata dalam model regresi (dalam kasus saya model multilevel desain blok acak dengan 3 level) dan kesimpulan saya adalah pemusatan berarti variabel dummy tidak benar-benar mengubah interpretasi koefisien regresi (kecuali bahwa solusinya sepenuhnya terstandarisasi). Biasanya, tidak perlu dalam regresi untuk menginterpretasikan nilai rata-rata tingkat pusat yang sebenarnya - hanya koefisien. Dan ini pada dasarnya tidak berubah - sebagian besar. Dia mengatakan itu sedikit berubah karena itu standar yang, untuk boneka, tidak intuitif untuk dipahami.
Peringatan: Itulah pemahaman saya ketika saya meninggalkan kantor profesor saya. Tentu saja saya bisa salah.
sumber