Apakah masuk akal untuk menggunakan regresi logistik dengan hasil dan prediksi biner?

18

Saya memiliki variabel hasil biner {0,1} dan variabel prediktor {0,1}. Pikiran saya adalah bahwa tidak masuk akal untuk melakukan logistik kecuali saya memasukkan variabel lain dan menghitung rasio odds.

Dengan satu prediktor biner, bukankah perhitungan probabilitas akan cukup dengan rasio odds?

keval
sumber

Jawaban:

26

Dalam hal ini Anda dapat runtuh data ke di mana S i j adalah jumlah kasus untuk x = i dan y = j dengan i , j { 0 , 1 } . Misalkan ada n pengamatan secara keseluruhan.

XY010S00S011S10S11
Sijx=iy=ji,j{0,1}n

Jika kita sesuai dengan model (di mana g adalah fungsi link kami) kita akan menemukan bahwa β 0 adalah yang logit proporsi keberhasilan ketika x i = 0 dan ß 0 + β 1 adalah logit proporsi keberhasilan saatpi=g1(xiTβ)=g1(β0+β11xi=1)gβ^0xi=0β^0+β^1 . Dengan kata lain, β 0 = g ( S 01xi=1 dan β 0+ β 1=g(S11

β^0=g(S01S00+S01)
β^0+β^1=g(S11S10+S11).

Mari kita periksa ini R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Jadi koefisien regresi logistik adalah persis transformasi proporsi yang berasal dari tabel.

Hasilnya adalah kita tentu dapat menganalisis dataset ini dengan regresi logistik jika kita memiliki data yang berasal dari serangkaian variabel acak Bernoulli, tetapi ternyata tidak ada bedanya dengan langsung menganalisis tabel kontingensi yang dihasilkan.


Yi|xiBern(pi)xihalsaya=g-1(β0+β1xsaya)xsayahalsayahal0hal1

saya:xsaya=0Ysaya=S01Tempat sampah(n0,hal0)
saya:xsaya=1Ysaya=S11Tempat sampah(n1,hal1).
xsayan0n1

S01/n0=S01S00+S01halhal0 dan S11/n1=S11S10+S11halhal1.

Ysaya|xsaya=jBern(halj)Sj1Tempat sampah(nj,halj)

jld
sumber
1

Ketika Anda memiliki lebih dari satu prediktor dan semua prediktor adalah variabel biner, Anda dapat memuat model menggunakan Regresi Logika [1] (perhatikan itu "Logika" bukan "Logistik"). Ini berguna ketika Anda percaya efek interaksi di antara para prediktor Anda menonjol. Ada implementasi di R ( LogicRegpaket).

[1] Ruczinski, I., Kooperberg, C., & LeBlanc, M. (2003). Regresi logika. Jurnal Statistik Komputasi dan grafis, 12 (3), 475-511.

horaceT
sumber
1
Pertanyaannya secara khusus tentang satu regresi, sehingga jawaban Anda lebih baik berfungsi sebagai komentar.
Richard Hardy