Menafsirkan istilah interaksi dalam regresi logit dengan variabel kategori

25

Saya memiliki data dari eksperimen survei di mana responden secara acak ditugaskan ke salah satu dari empat kelompok:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

Sementara tiga kelompok perlakuan sedikit berbeda dalam stimulus yang diterapkan, perbedaan utama yang saya pedulikan adalah antara kelompok kontrol dan kelompok perlakuan. Jadi saya mendefinisikan variabel dummy Control:

> summary(df$Control)
     TRUE FALSE 
       59   191 

Dalam survei, responden diminta (antara lain) untuk memilih mana dari dua hal yang mereka sukai:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

Kemudian, setelah menerima beberapa stimulus yang ditentukan oleh kelompok perlakuan mereka (dan tidak ada jika mereka berada dalam kelompok kontrol), responden diminta untuk memilih antara dua hal yang sama:

> summary(df$Choice)
  A    B 
149  101 

Saya ingin tahu apakah keberadaan dalam salah satu dari tiga kelompok perlakuan berpengaruh pada pilihan yang dibuat responden dalam pertanyaan terakhir ini. Hipotesis saya adalah bahwa responden yang menerima perawatan lebih cenderung memilih Adaripada B.

Mengingat bahwa saya bekerja dengan data kategorikal, saya telah memutuskan untuk menggunakan regresi logit (jangan ragu untuk berpadu jika Anda berpikir itu salah). Karena responden ditugaskan secara acak, saya mendapat kesan bahwa saya seharusnya tidak perlu mengendalikan variabel-variabel lain (misalnya, demografi), jadi saya mengabaikan pertanyaan-pertanyaan ini. Model pertama saya hanyalah sebagai berikut:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

Saya mendapat kesan bahwa intersepsi menjadi signifikan secara statistik bukanlah sesuatu yang memiliki makna yang dapat ditafsirkan. Saya pikir mungkin saya harus memasukkan istilah interaksi sebagai berikut:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Sekarang status responden sebagai kelompok perlakuan memiliki efek yang diharapkan. Apakah ini serangkaian langkah yang valid? Bagaimana saya bisa mengartikan istilah interaksi ControlFALSE:PreferA? Apakah koefisien lain masih berupa peluang log?

Pygmalion
sumber
Jawaban saya di sini relevan: stats.stackexchange.com/questions/246873/...
kjetil b halvorsen

Jawaban:

31

Saya berasumsi bahwa PreferA = 1 ketika seseorang lebih suka A dan 0 sebaliknya dan bahwa ControlFALSE = 1 ketika dirawat dan 0 saat kontrol.

Peluang preffering A ketika seseorang tidak melakukannya sebelumnya dan tidak menerima perawatan (ControlFALSE = 0 dan PreferA = 0) adalahexp(3.135)=23 , yaitu ada 23 orang yang memilih A untuk setiap orang tersebut yang lebih suka B. Jadi A sangat populer.

Efek treatmeant merujuk pada seseorang yang tidak lebih suka A sebelumnya (PreferA = 0). Dalam kasus tersebut, peluang awal berkurang dengan faktor atau ketika dia menjalani perawatan. Jadi kemungkinan memilih A bagi mereka yang dirawat dan tidak suka A sebelumnya adalah( 1 - .099 ) × 100 % = - 90.1 % .099 23 = 2.3exp(-2.309)=0,099(1-0,099)×100%=-90.1%0,09923=2.3 , jadi ada 2.3 orang yang lebih suka A untuk setiap orang yang lebih suka B. Jadi di antara kelompok ini A masih lebih populer dari B, tetapi kurang dari pada kelompok yang tidak diobati / baseline.

Efek lebih suka A sebelumnya mengacu pada orang yang merupakan kontrol (ControlFALSE = 0). Jika demikian, peluang dasar menurun dengan faktor atau ketika seseorang lebih suka A sebelumnya. (Jadi mereka yang mengupas A sebelumnya jauh lebih kecil kemungkinannya untuk melakukannya sekarang. Apakah itu masuk akal?)- 99,4 %0,006-99,4%

exp(2.850)=17.317.3×0,099=1.71exp(2.850-2.309)

Jadi konstanta eksponensial memberi Anda odds awal , koefisien eksponensial dari efek utama memberi Anda rasio odds ketika variabel lain sama dengan 0, dan koefisien eksponensial dari istilah interaksi memberi tahu Anda rasio yang rasio odds berubah .

Maarten Buis
sumber
Terima kasih Maarten, ini sangat membantu karena jawaban Anda untuk pertanyaan saya yang terkait lainnya. Saya hanya ingin sedikit klarifikasi pada satu titik. Seperti yang saya singgung dalam pertanyaan saya yang lain, saya khawatir tentang validitas statistik dari apa yang telah saya lakukan di sini karena fakta yang ControlFALSEmemiliki nilai p tinggi pada model pertama dan kemudian yang cukup rendah pada model kedua. Menerapkan jawaban Anda pada pertanyaan saya yang lain untuk kasus khusus ini, Anda mengatakan bahwa ini bisa terjadi jika Controlmemiliki efek negatif pada satu kelompok Preferdan efek positif pada yang lain.
Pygmalion
(kehabisan ruang) Apakah interpretasi itu masuk akal di sini? Saya tidak yakin bagaimana cara menerapkannya secara langsung.
Pygmalion
Pengaruh ControlFALSEdalam model pertama adalah efek dari pengobatan untuk kedua orang yang prefered A sebelumnya dan mereka yang tidak, sedangkan efek dalam model kedua adalah hanya efek pengobatan bagi mereka yang tidak suka A sebelumnya. Apakah itu OK atau tidak bukanlah pertanyaan statistik, tetapi apakah itu masuk akal atau tidak.
Maarten Buis
@ MaartenBuis Penjelasan luar biasa. Bagaimana Anda akan melakukan perhitungan equivent untuk interval kepercayaan dari estimasi? Untuk memudahkan interpretasi, saya secara umum telah membuat stratifikasi model logistik (misalnya dengan preferensi sebelumnya dalam contoh ini) dan menggunakan istilah interaksi sebagai "uji statistik untuk perbedaan signifikan dalam OR. Apakah ini dapat diterima?
bobmcpop
2

Saya juga menemukan makalah ini sangat membantu dalam menafsirkan interaksi dalam regresi logistik:

Chen, JJ (2003). Mengkomunikasikan informasi yang kompleks: interpretasi interaksi statistik dalam analisis regresi logistik berganda . Jurnal kesehatan masyarakat Amerika , 93 (9), 1376-1377.

laut dalam
sumber
4
Saya telah memberikan referensi lengkap (judul, penulis, tanggal, jurnal dll) yang berarti bahwa kontribusi masih akan berguna jika alamat tautan berubah. Tetapi bisakah Anda mengembangkannya untuk meringkas isinya? Kalau tidak, ini benar-benar lebih merupakan komentar daripada jawaban - kami lebih suka jawaban kami mandiri, sehingga mereka tahan terhadap "busuk tautan". Atau kami dapat mengonversikan ini menjadi komentar untuk Anda.
Silverfish
Terima kasih. Saya menghubungkan NCBI jadi saya pikir tidak apa-apa. Saya setuju dengan perubahannya. Terima kasih!
deepseas
0

Preferensi saya sendiri, ketika mencoba menafsirkan interaksi dalam regresi logistik, adalah untuk melihat probabilitas yang diprediksi untuk setiap kombinasi variabel kategori. Dalam kasus Anda, ini hanya 4 probabilitas:

  1. Lebih suka A, kontrol benar
  2. Lebih suka A, kontrol salah
  3. Lebih suka B, kontrol benar
  4. Lebih suka B, kontrol salah

Ketika saya memiliki variabel kontinu, saya biasanya melihat nilai prediksi pada median, kuartil ke-1 dan ke-3.

Meskipun ini tidak secara langsung mendapatkan interpretasi dari masing-masing koefisien, saya menemukan bahwa sering membuat saya (dan klien saya) melihat apa yang terjadi dengan cara yang jelas.

Peter Flom - Pasang kembali Monica
sumber