Saya memiliki data dari eksperimen survei di mana responden secara acak ditugaskan ke salah satu dari empat kelompok:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Sementara tiga kelompok perlakuan sedikit berbeda dalam stimulus yang diterapkan, perbedaan utama yang saya pedulikan adalah antara kelompok kontrol dan kelompok perlakuan. Jadi saya mendefinisikan variabel dummy Control
:
> summary(df$Control)
TRUE FALSE
59 191
Dalam survei, responden diminta (antara lain) untuk memilih mana dari dua hal yang mereka sukai:
> summary(df$Prefer)
A B NA's
152 93 5
Kemudian, setelah menerima beberapa stimulus yang ditentukan oleh kelompok perlakuan mereka (dan tidak ada jika mereka berada dalam kelompok kontrol), responden diminta untuk memilih antara dua hal yang sama:
> summary(df$Choice)
A B
149 101
Saya ingin tahu apakah keberadaan dalam salah satu dari tiga kelompok perlakuan berpengaruh pada pilihan yang dibuat responden dalam pertanyaan terakhir ini. Hipotesis saya adalah bahwa responden yang menerima perawatan lebih cenderung memilih A
daripada B
.
Mengingat bahwa saya bekerja dengan data kategorikal, saya telah memutuskan untuk menggunakan regresi logit (jangan ragu untuk berpadu jika Anda berpikir itu salah). Karena responden ditugaskan secara acak, saya mendapat kesan bahwa saya seharusnya tidak perlu mengendalikan variabel-variabel lain (misalnya, demografi), jadi saya mengabaikan pertanyaan-pertanyaan ini. Model pertama saya hanyalah sebagai berikut:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Saya mendapat kesan bahwa intersepsi menjadi signifikan secara statistik bukanlah sesuatu yang memiliki makna yang dapat ditafsirkan. Saya pikir mungkin saya harus memasukkan istilah interaksi sebagai berikut:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Sekarang status responden sebagai kelompok perlakuan memiliki efek yang diharapkan. Apakah ini serangkaian langkah yang valid? Bagaimana saya bisa mengartikan istilah interaksi ControlFALSE:PreferA
? Apakah koefisien lain masih berupa peluang log?
sumber
Jawaban:
Saya berasumsi bahwa PreferA = 1 ketika seseorang lebih suka A dan 0 sebaliknya dan bahwa ControlFALSE = 1 ketika dirawat dan 0 saat kontrol.
Peluang preffering A ketika seseorang tidak melakukannya sebelumnya dan tidak menerima perawatan (ControlFALSE = 0 dan PreferA = 0) adalahexp( 3.135 ) = 23 , yaitu ada 23 orang yang memilih A untuk setiap orang tersebut yang lebih suka B. Jadi A sangat populer.
Efek treatmeant merujuk pada seseorang yang tidak lebih suka A sebelumnya (PreferA = 0). Dalam kasus tersebut, peluang awal berkurang dengan faktor atau ketika dia menjalani perawatan. Jadi kemungkinan memilih A bagi mereka yang dirawat dan tidak suka A sebelumnya adalah( 1 - .099 ) × 100 % = - 90.1 % .099 ∗ 23 = 2.3exp( - 2.309 ) = .099 ( 1 - .099 ) × 100 % = - 90,1 % .099 ∗ 23 = 2.3 , jadi ada 2.3 orang yang lebih suka A untuk setiap orang yang lebih suka B. Jadi di antara kelompok ini A masih lebih populer dari B, tetapi kurang dari pada kelompok yang tidak diobati / baseline.
Efek lebih suka A sebelumnya mengacu pada orang yang merupakan kontrol (ControlFALSE = 0). Jika demikian, peluang dasar menurun dengan faktor atau ketika seseorang lebih suka A sebelumnya. (Jadi mereka yang mengupas A sebelumnya jauh lebih kecil kemungkinannya untuk melakukannya sekarang. Apakah itu masuk akal?)- 99,4 %0,006 - 99,4 %
Jadi konstanta eksponensial memberi Anda odds awal , koefisien eksponensial dari efek utama memberi Anda rasio odds ketika variabel lain sama dengan 0, dan koefisien eksponensial dari istilah interaksi memberi tahu Anda rasio yang rasio odds berubah .
sumber
ControlFALSE
memiliki nilai p tinggi pada model pertama dan kemudian yang cukup rendah pada model kedua. Menerapkan jawaban Anda pada pertanyaan saya yang lain untuk kasus khusus ini, Anda mengatakan bahwa ini bisa terjadi jikaControl
memiliki efek negatif pada satu kelompokPrefer
dan efek positif pada yang lain.ControlFALSE
dalam model pertama adalah efek dari pengobatan untuk kedua orang yang prefered A sebelumnya dan mereka yang tidak, sedangkan efek dalam model kedua adalah hanya efek pengobatan bagi mereka yang tidak suka A sebelumnya. Apakah itu OK atau tidak bukanlah pertanyaan statistik, tetapi apakah itu masuk akal atau tidak.Saya juga menemukan makalah ini sangat membantu dalam menafsirkan interaksi dalam regresi logistik:
Chen, JJ (2003). Mengkomunikasikan informasi yang kompleks: interpretasi interaksi statistik dalam analisis regresi logistik berganda . Jurnal kesehatan masyarakat Amerika , 93 (9), 1376-1377.
sumber
Preferensi saya sendiri, ketika mencoba menafsirkan interaksi dalam regresi logistik, adalah untuk melihat probabilitas yang diprediksi untuk setiap kombinasi variabel kategori. Dalam kasus Anda, ini hanya 4 probabilitas:
Ketika saya memiliki variabel kontinu, saya biasanya melihat nilai prediksi pada median, kuartil ke-1 dan ke-3.
Meskipun ini tidak secara langsung mendapatkan interpretasi dari masing-masing koefisien, saya menemukan bahwa sering membuat saya (dan klien saya) melihat apa yang terjadi dengan cara yang jelas.
sumber