Apakah praktik yang baik untuk membakukan data Anda dalam regresi dengan data panel / longitudinal?

16

Secara umum, saya membakukan variabel independen saya dalam regresi, untuk membandingkan dengan benar koefisien (dengan cara ini mereka memiliki unit yang sama: standar deviasi). Namun, dengan data panel / longitudinal, saya tidak yakin bagaimana saya harus membakukan data saya, terutama jika saya memperkirakan model hierarkis.

Untuk melihat mengapa itu bisa menjadi masalah potensial, anggap Anda memiliki individu yang diukur sepanjang t = 1 , ... , periode T dan Anda mengukur variabel dependen, y i , t dan satu variabel independen x i , t . Jika Anda menjalankan regresi kumpulan lengkap, maka tidak apa-apa untuk membakukan data Anda dengan cara ini: x . z = ( x - mean ( x ) ) / sd ( xi=1,,nt=1,,Tyi,txi,t , karena itu tidak akan mengubah t-statistik. Di sisi lain, jika Anda cocok dengan regresi yang tidak disatukan, yaitu, satu regresi untuk setiap individu, maka Anda harus membakukan data Anda hanya berdasarkan individu, bukan seluruh dataset (dalam kode R):x.z=(xmean(x))/sd(x)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Namun, jika Anda cocok dengan model hierarkis sederhana dengan intersep yang bervariasi oleh individu, maka Anda menggunakan estimator penyusutan, yaitu, Anda memperkirakan model antara regresi yang dikumpulkan dan tidak dikumpulkan. Bagaimana saya harus membakukan data saya? Menggunakan seluruh data seperti regresi gabungan? Hanya menggunakan individu, seperti dalam kasus unpooled?

Manoel Galdino
sumber

Jawaban:

10

Saya tidak dapat melihat bahwa standardisasi adalah ide yang baik dalam regresi biasa atau dengan model longitudinal. Itu membuat prediksi lebih sulit untuk diperoleh dan biasanya tidak menyelesaikan masalah yang perlu diselesaikan. Dan bagaimana jika Anda memiliki dan x 2 dalam model. Bagaimana Anda menstandarkan x 2 ? Bagaimana jika Anda memiliki variabel kontinu dan variabel biner dalam model? Bagaimana Anda membakukan variabel biner? Tentu saja tidak dengan standar deviasinya, yang akan menyebabkan variabel prevalensi rendah memiliki kepentingan yang lebih besar.xx2x2

Secara umum yang terbaik adalah menafsirkan efek model pada skala .x

Frank Harrell
sumber
@ Frank Harrell - poin bagus tentang masalah yang terkait dengan kondisi yang Anda gariskan tetapi jika seseorang memiliki semua variabel kontinu dengan skala yang berbeda maka bukankah standardisasi satu-satunya cara untuk membandingkan lereng?
DQdlM
1
@ Sejujurnya, saya kira itu tergantung pada jenis model yang Anda jalankan, tetapi standardisasi variabel prediktor sering berguna. Memusatkan mereka berarti intersep menjadi dapat ditafsirkan sebagai hasil prediksi rata-rata dan kepentingan relatif dari berbagai prediktor menjadi lebih jelas. Saya biasanya meninggalkan prediktor biner sendiri, tetapi kadang-kadang opsi penskalaan lain layak dipertimbangkan. Akhirnya, dalam beberapa kasus memiliki prediktor dengan standar deviasi yang sangat berbeda dapat menyebabkan masalah komputasi / konvergensi.
Michael Bishop
2
R2χ2
1
Jika Anda memiliki variabel biner, jangan membakukannya, hanya variabel kontinu. Lihat artikel ini oleh Gelman (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >, yang menyarankan pembagian variabel dengan dua standar deviasi. Dalam kasus apa pun, ini membantu untuk mencapai konvergensi jika Anda menggunakan model Bayesian.
Manoel Galdino
xx2
0

Ada alternatif untuk standardisasi untuk membawa variabel yang diukur dengan skala yang berbeda ke metrik yang sama. Ini disebut Proportion of Maximum Scaling (POMS), dan ia mati tidak main-main dengan distribusi multivariat karena z-transformasi cenderung dilakukan.

Todd Little secara eksplisit merekomendasikan POMS atas standardisasi z dalam bukunya tentang pemodelan persamaan struktural longitudinal. Transformasi-Z disertai dengan masalah tambahan ketika berurusan dengan data longitudinal, lihat di sini: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

pengguna142548
sumber