Melakukan partialling atau meregresi variabel kategorikal?

9

Kadang-kadang saya melihat dalam literatur bahwa variabel kategori seperti seks adalah "partialled" atau "regressed" dalam analisis regresi (efek tetap atau efek campuran). Saya bermasalah dengan masalah-masalah praktis berikut yang terlibat dalam pernyataan seperti itu:

(1) Biasanya metode pengkodean tidak disebutkan dalam makalah. Variabel seperti itu harus dikodekan dengan nilai-nilai kuantitatif, dan saya merasa cara yang masuk akal harus efek pengkodean (misalnya, laki-laki = 1, perempuan = -1) sehingga partialling dapat dicapai dengan efek lain yang ditafsirkan dengan rata-rata besar dari kedua jenis kelamin kelompok. Pengkodean yang berbeda dapat menghasilkan interpretasi yang berbeda (dan tidak diinginkan). Misalnya, pengkodean dummy (misalnya, laki-laki = 0, perempuan = 1) akan meninggalkan efek lain yang terkait dengan laki-laki, bukan mean besar. Bahkan memusatkan variabel dummy-kode ini mungkin tidak berfungsi dengan baik untuk tujuan partialling mereka jika ada jumlah subjek yang tidak sama di kedua kelompok. Apakah saya benar?

(2) Jika pengaruh variabel kategorikal tersebut dimasukkan dalam model, memeriksa efeknya terlebih dahulu tampaknya perlu dan harus dibahas dalam konteks karena konsekuensinya pada interpretasi efek lain. Yang mengganggu saya adalah bahwa kadang-kadang penulis bahkan tidak menyebutkan pentingnya efek seks, apalagi proses pembangunan model. Jika efek seks ada, pertanyaan tindak lanjut alami adalah apakah ada interaksi antara jenis kelamin dan variabel lain dalam model? Jika tidak ada efek seks dan tidak ada interaksi, seks harus dihapus dari model.

(3) Jika seks dianggap tidak menarik bagi para penulis, apa gunanya memasukkannya ke dalam model sejak awal tanpa memeriksa efeknya? Apakah dimasukkannya variabel kategori semacam itu (dan menghabiskan satu derajat kebebasan pada efek tetap dari seks) mendapatkan sesuatu untuk tujuan partialling mereka ketika efek seks ada (pengalaman terbatas saya mengatakan pada dasarnya tidak)?

bluepole
sumber
Apa yang bisa saya katakan, semua poin Anda valid, sehingga ada kemungkinan bahwa penulis artikel tersebut melakukan hal yang salah. Tanpa lebih banyak konteks tidak mungkin untuk mengatakan sesuatu yang konkret.
mpiktas

Jawaban:

4

Saya tidak berpikir (1) ada bedanya. Idenya adalah untuk sebagian keluar dari respon dan prediktor lain efek dari Seks. Tidak masalah jika Anda memberi kode 0, 1 (Perawatan kontras) atau 1, -1 (Jumlah ke nol kontras) karena model mewakili "jumlah" informasi yang sama yang kemudian dihapus. Berikut adalah contoh dalam R:

set.seed(1)
dat <- data.frame(Size = c(rnorm(20, 180, sd = 5), 
                           rnorm(20, 170, sd = 5)),
                  Sex = gl(2,20,labels = c("Male","Female")))

options(contrasts = c("contr.treatment", "contr.poly"))
r1 <- resid(m1 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.sum", "contr.poly"))
r2 <- resid(m2 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.treatment", "contr.poly"))

Dari dua model ini, residualnya sama dan informasi inilah yang kemudian akan dimasukkan ke dalam model berikutnya (ditambah hal yang sama menghilangkan efek Seks dari kovariat lainnya):

> all.equal(r1, r2)
[1] TRUE

Saya kebetulan setuju dengan (2), tetapi pada (3) jika Seks tidak menarik bagi para peneliti, mereka mungkin masih ingin mengendalikan efek Seks, jadi model nol saya akan menjadi yang mencakup Seks dan saya menguji alternatif dengan kovariat tambahan plus Seks. Poin Anda tentang interaksi dan pengujian untuk efek variabel yang tidak menarik adalah pengamatan penting dan valid.

Gavin Simpson
sumber
2

Memang benar bahwa pilihan metode pengkodean mempengaruhi bagaimana Anda menafsirkan koefisien model. Dalam pengalaman saya (dan saya menyadari ini bisa bergantung pada bidang Anda), coding dummy sangat lazim sehingga orang tidak memiliki masalah besar untuk mengatasinya.

Dalam contoh ini, jika laki-laki = 0 dan perempuan = 1, maka intersep pada dasarnya adalah respons rata-rata untuk laki-laki, dan koefisien Jenis Kelamin adalah dampak pada respons karena menjadi perempuan ("efek perempuan"). Segalanya menjadi lebih rumit setelah Anda berurusan dengan variabel kategori dengan lebih dari dua level, tetapi skema penafsirannya meluas secara alami.

Apa artinya ini pada akhirnya adalah bahwa Anda harus berhati-hati bahwa kesimpulan substantif apa pun yang Anda ambil dari analisis tidak bergantung pada metode pengkodean yang digunakan.

Hong Ooi
sumber
1

Ingatlah bahwa kesalahan itu akan dikurangi dengan menambahkan faktor tambahan apa pun. Bahkan jika gender tidak signifikan dalam model Anda, itu mungkin masih berguna dalam penelitian ini. Signifikansi dapat ditemukan dalam faktor apa pun jika ukuran sampel cukup besar. Sebaliknya, jika ukuran sampel tidak cukup besar efek signifikan mungkin tidak dapat diuji. Karenanya bangunan model yang baik dan analisis daya.


sumber
1

Sepertinya saya tidak bisa menambahkan komentar panjang langsung ke jawaban Dr. Simpson. Maaf saya harus memberi tanggapan saya di sini.

Saya sangat menghargai tanggapan Anda, Dr. Simpson! Saya harus sedikit menjelaskan argumen saya. Apa yang saya punya masalah dengan bisnis partialling bukan masalah teoritis tetapi praktis. Misalkan model regresi linier adalah dari bentuk berikut

y = a + b * Jenis Kelamin + efek tetap lainnya + residu

Saya sepenuhnya setuju bahwa, dari perspektif teoretis, terlepas dari bagaimana kami mengukur variabel Jenis Kelamin, kami akan memiliki residu yang sama. Bahkan jika saya memberi kode pada subjek dengan beberapa angka gila seperti pria = 10.7 dan wanita = 53.65, saya masih akan mendapatkan residu yang sama seperti r1dan r2dalam contoh Anda. Namun, yang penting di koran-koran itu bukan tentang residu. Alih-alih, fokusnya adalah pada interpretasi dari intersep adan efek tetap lainnya dalam model di atas, dan ini dapat mengundang masalah saat partialling. Dengan fokus yang demikian dalam pikiran, bagaimana Seks dikodekan tampaknya memiliki konsekuensi besar pada interpretasi semua efek lain dalam model di atas. Dengan dummy coding (options(contrasts = c("contr.treatment", "contr.poly"))dalam R), semua efek lain kecuali 'b' harus ditafsirkan terkait dengan kelompok seks dengan kode "0" (laki-laki). Dengan pengkodean efek ( options(contrasts = c("contr.sum", "contr.poly"))dalam R), semua efek lain kecuali badalah efek rata-rata untuk seluruh populasi tanpa memandang jenis kelamin.

Menggunakan contoh Anda, model disederhanakan

y = a + b * Jenis kelamin + residu.

Masalahnya dapat dilihat dengan jelas tentang perkiraan intersep a:

> summary(m1)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 180.9526     0.9979 181.332  < 2e-16 ***

> summary(m2)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 175.4601     0.7056 248.659  < 2e-16 ***

Akhirnya sepertinya saya harus setuju bahwa argumen asli saya (3) mungkin tidak valid. Melanjutkan contoh Anda,

> options(contrasts = c("contr.sum", "contr.poly"))
> m0 <- lm(Size ~ 1, data = dat)
> summary(m0)

Call: lm(formula = Size ~ 1, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  175.460      1.122   156.4   <2e-16 ***

Tampaknya memasukkan jenis kelamin dalam model tidak mengubah perkiraan efek, tetapi meningkatkan kekuatan statistik karena lebih banyak variabilitas dalam data dicatat melalui efek jenis kelamin. Ilusi saya sebelumnya dalam argumen (3) mungkin berasal dari dataset dengan ukuran sampel yang besar di mana menambahkan Jenis Kelamin dalam model tidak benar-benar banyak berubah untuk signifikansi efek lainnya.

Namun, dalam analisis tipe ANOVA seimbang konvensional, faktor antar-subjek seperti Jenis Kelamin tidak memiliki konsekuensi pada efek yang tidak terkait dengan faktor karena partisi ortogonal dari varian?

bluepole
sumber
2
Mungkin kita punya cara berbeda untuk keluar? Dalam pikiran saya itu akan melibatkan i) e1 <- resid (lm (y ~ Sex)), ii) e2 <- resid (lm (X ~ Sex)), dan akhirnya iii) lm (e1 ~ e2). i) residual y sehubungan dengan Seks, ii) residual kovariat lainnya (X) sehubungan dengan Seks, iii) sesuai dengan regresi parsial. Dalam hal itu tidak masalah bagaimana seseorang mengkode Seks. Dalam hal di atas, kami tidak benar-benar tertarik pada efek Seks atau interpretasi koefisien. Namun, jika kita membangun model, yaitu mengendalikan Sex as a Null, maka bagaimana kita menentukan model adalah pertimbangan penting.
Gavin Simpson