Saya pikir pertama-tama kita harus bertanya apakah perlu untuk menggunakan regresi logistik proporsional peluang untuk memperkirakan risiko relatif kumulatif, misalnya risiko relatif melaporkan hasil yang lebih tinggi. Perumusan probabilistik dari model odds proporsional bergantung pada pengamatan tempat sembarang dari variabel acak logistik laten. Lihat pertanyaan saya yang relevan di sini . Keanggunan metode ini adalah bahwa fungsi survival (1-CDF) dari RV logistik adalah logit terbalik, misalnya .P( Z> z) = exp( - z) / ( 1 + exp( - z) )
Jika kita mengasumsikan derivasi probabilistik yang serupa dari model risiko relatif, keinginannya adalah untuk menemukan variabel acak laten yang fungsi survivalnya adalah . Tapi itu hanya variabel acak eksponensial, yang tanpa memori. Oleh karena itu, jika kita membangun matriks variabel hasil ambang, , (saya percaya) frekuensi sel independen kondisional, dan dengan demikian dapat dimodelkan melalui model log-linear yang hanya regresi Poisson. Ini meyakinkan karena interpretasi koefisien Poisson adalah sebagai tingkat relatif. Pemodelan interaksi antara variabel respon sebagai hasil numerik dan koefisien regresi mengarah pada interpretasi yang benar.P( Z> z) = exp( - z)HAIsaya j= Saya(Ysaya≥ j )
Artinya, pas dengan model log-linear:
catatan(Nsaya j|Ysaya,Xsaya ,) =η0saya(Ysaya= 0 ) + ... +ηjsaya(Ysaya= = j ) +β⃗ Xsaya ,+γ⃗ diag (Y)Xsaya ,
Menggunakan contoh dari paket MASS: kami melihat efek yang diinginkan bahwa risiko relatif jauh lebih kecil daripada OR dalam semua kasus:
newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)
## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
coef(summary(fit))[effects, ],
coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)
Memberi kami:
Estimate Std. Error z value Pr(>|z|) Value Std. Error t value
ny:InflMedium 0.360 0.0664 5.41 6.23e-08 0.566 0.1047 5.41
ny:InflHigh 0.792 0.0811 9.77 1.50e-22 1.289 0.1272 10.14
ny:TypeApartment -0.299 0.0742 -4.03 5.55e-05 -0.572 0.1192 -4.80
ny:TypeAtrium -0.170 0.0977 -1.74 8.21e-02 -0.366 0.1552 -2.36
ny:TypeTerrace -0.673 0.0951 -7.07 1.51e-12 -1.091 0.1515 -7.20
ny:ContHigh 0.106 0.0578 1.84 6.62e-02 0.360 0.0955 3.77
Dimana 4 kolom pertama adalah inferensi dari model log-linear dan 3 kolom kedua berasal dari model odds proporsional.
Ini mungkin menjawab pertanyaan yang paling penting: bagaimana seseorang cocok dengan model seperti itu. Saya pikir ini dapat digunakan untuk mengeksplorasi perkiraan relatif OR untuk kejadian langka pada RR.
X
termasuk intersep). Saya memilihnya karena menekankan poin yang paling relevan dengan pertanyaan. (Ini jelas tidak setara setelah Anda mengganti logit dengan log, tetapi formulasi ini tampaknya menggeneralisasi yang terbaik)