Menafsirkan koefisien regresi berdasarkan metode penskalaan Andrew Gelman

8

Saya memiliki dua prediktor dalam model regresi logistik biner: Satu biner dan satu kontinu. Tujuan utama saya adalah membandingkan koefisien dua prediktor dalam model yang sama.

Saya telah menemukan saran Andrew Gelman untuk membakukan variabel input regresi berkelanjutan:

I) Usulan awal (2008): bagi prediktor kontinu dengan 2 SD

Original manuscript: 
http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf

II) Rekomendasi yang diperbarui (2009): bagi prediktor kontinu dengan 1 SD DAN masukkan kembali nilai input biner dari (0,1) menjadi (-1, + 1)).

Updated recommendation (1 SD, recode binary):
http://andrewgelman.com/2009/06/09/standardization/

Interpretasi yang tepat dari koefisien yang dihasilkan masih sulit bagi saya:

SKENARIO 1: KEDUA PREDIKTOR SIGNIFIKAN DALAM MODEL YANG SAMA

Hasil: biner non-transformasi Y Prediktor kontinu: XCONT (dibagi 1dd) Prediktor biner: XBIN (dikodekan ulang untuk mengambil nilai -1 atau 1)

  > orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN, 
   family=binomial(link="logit")))
  > summary(orfit1c)

   Call:
   glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit"))

   Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
       -0.9842  -0.6001  -0.5481  -0.5481   1.9849  

       Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
        (Intercept)  -1.8197     0.1761 -10.331  < 2e-16 ***
        XCONT         0.3175     0.1190   2.667  0.00765 ** 
        XBIN          1.0845     0.3564   3.043  0.00234 ** 
        ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

       (Dispersion parameter for binomial family taken to be 1)

       Null deviance: 398.99  on 409  degrees of freedom
       Residual deviance: 385.88  on 407  degrees of freedom
       AIC: 391.88

SKENARIO 2: TIDAK SIGNIFIKAN DALAM MODEL YANG SAMA (TETAPI ketika mereka dimasukkan secara terpisah dalam dua model yang berbeda, koefisiennya sama-sama signifikan)

       Call:
      glm(formula =YBIN2 ~ XCONT2 + XBIN2, family = binomial(link = 
       "logit"))

               Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
          -1.0090  -0.6265  -0.5795  -0.5795   1.9573  

            Coefficients:
                   Estimate Std. Error z value Pr(>|z|)    
       (Intercept)  -1.7562     0.1835  -9.570   <2e-16 ***
       XCONT2         0.2182     0.1318   1.656   0.0977 .  
       XBIN2        0.6063     0.3918   1.547   0.1218    
                         ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

          (Dispersion parameter for binomial family taken to be 1)

          Null deviance: 398.99  on 409  degrees of freedom
          Residual deviance: 390.01  on 407  degrees of freedom
          AIC: 396.01

Pertanyaan: Untuk metode penskalaan asli, dijelaskan bahwa "perubahan satu unit dalam prediktor kontinu mencakup dua standar deviasi dari prediktor itu"

Untuk metode penskalaan yang diperbarui, apakah saya benar dalam penafsiran skenario # 1 bahwa:

(1) perubahan satu unit dalam prediktor kontinu mencakup 1 standar deviasi XCONT

(2) dan perubahan dalam 1 SD di XCONT ini setara dengan perubahan 1 unit (yaitu tidak ada atau ada) dari prediktor biner (XBIN).

(3) sesuai, 1 perubahan SD di XBIN memprediksi peningkatan 1 unit di YBIN sedangkan peningkatan 1/3 unit di YCONT memprediksi peningkatan 1 unit di YBIN?

PERTANYAAN

  • Apakah interpretasi yang diuraikan dalam 1-3 perlu koreksi? Karena variabel hasil biner tidak dikode ulang, dapatkah saya masih mengatakan bahwa 1 unit perubahan dalam X memprediksi 1 unit perubahan dalam hasil biner (0 atau 1)?

  • Apa lagi yang bisa dikatakan tentang hasil, khususnya ketika saya mencoba untuk membandingkan dua koefisien untuk prediktor kontinu dan biner?

ksroogl
sumber

Jawaban:

-1

(1) agak canggung dinyatakan, dan saya tidak yakin apa yang Anda maksud. Saya akan menafsirkan estimasi parameter XCONT sebagai:

Pengamatan satu standar deviasi di atas rata-rata XCONT memiliki YBIN ~ 32 persen lebih sering.

Saat Anda menginterpretasikan estimasi parameter XBIN, perlu diingat bahwa Anda menginterpretasikan rata-rata XCONT.

Richard McElreath bekerja melalui sebuah contoh pengubahan ukuran dalam Pemikiran Ulang Statistik.

atmo
sumber
2
Jawaban ini tidak masuk akal.
Michael R. Chernick
@MichaelChernick akan menghargai pemikiran Anda tentang pertanyaan awal
ksroogl
Saya tidak akrab dengan pemikiran Gelman. Saya tidak mengerti mengapa dia mengubah nilai biner 0 ke -1.
Michael R. Chernick
@MichaelChernick Saya pikir itu agar level biner yang diskala ulang bisa simetris sekitar 0.
shadowtalker
Itu pasti bisa berhasil. Mengapa simetri sekitar 0 merupakan hal yang baik untuk dilakukan?
Michael R. Chernick