Secara umum, saya membakukan variabel independen saya dalam regresi, untuk membandingkan dengan benar koefisien (dengan cara ini mereka memiliki unit yang sama: standar deviasi). Namun, dengan data panel / longitudinal, saya tidak yakin bagaimana saya harus membakukan data saya, terutama jika saya memperkirakan model hierarkis.
Untuk melihat mengapa itu bisa menjadi masalah potensial, anggap Anda memiliki individu yang diukur sepanjang t = 1 , ... , periode T dan Anda mengukur variabel dependen, y i , t dan satu variabel independen x i , t . Jika Anda menjalankan regresi kumpulan lengkap, maka tidak apa-apa untuk membakukan data Anda dengan cara ini: x . z = ( x - mean ( x ) ) / sd ( x , karena itu tidak akan mengubah t-statistik. Di sisi lain, jika Anda cocok dengan regresi yang tidak disatukan, yaitu, satu regresi untuk setiap individu, maka Anda harus membakukan data Anda hanya berdasarkan individu, bukan seluruh dataset (dalam kode R):
for (i in 1:n) {
for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,])
}
Namun, jika Anda cocok dengan model hierarkis sederhana dengan intersep yang bervariasi oleh individu, maka Anda menggunakan estimator penyusutan, yaitu, Anda memperkirakan model antara regresi yang dikumpulkan dan tidak dikumpulkan. Bagaimana saya harus membakukan data saya? Menggunakan seluruh data seperti regresi gabungan? Hanya menggunakan individu, seperti dalam kasus unpooled?
sumber
Ada alternatif untuk standardisasi untuk membawa variabel yang diukur dengan skala yang berbeda ke metrik yang sama. Ini disebut Proportion of Maximum Scaling (POMS), dan ia mati tidak main-main dengan distribusi multivariat karena z-transformasi cenderung dilakukan.
Todd Little secara eksplisit merekomendasikan POMS atas standardisasi z dalam bukunya tentang pemodelan persamaan struktural longitudinal. Transformasi-Z disertai dengan masalah tambahan ketika berurusan dengan data longitudinal, lihat di sini: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/
sumber