Koefisien regresi logistik eksponensial berbeda dari rasio odds

10

Seperti yang saya pahami, nilai beta eksponensial dari regresi logistik adalah rasio odds dari variabel tersebut untuk variabel dependen yang menarik. Namun, nilainya tidak sesuai dengan rasio odds yang dihitung secara manual. Model saya memprediksi stunting (ukuran kekurangan gizi) menggunakan, di antara indikator lain, asuransi.

// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc. 
or_insurance = exp(beta_value_insurance)

// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins

Apa alasan konseptual untuk nilai-nilai ini berbeda? Mengontrol faktor-faktor lain dalam regresi? Hanya ingin bisa menjelaskan perbedaannya.

mikrofon
sumber
2
Apakah Anda memasukkan prediktor tambahan ke dalam model regresi logistik? Rasio odds yang dihitung secara manual hanya akan cocok dengan rasio odds yang Anda dapatkan dari regresi logistik jika Anda tidak memasukkan prediktor lain.
Makro
Itu yang saya kira, tetapi ingin konfirmasi. Itu karena hasil dari regresi adalah akuntansi untuk variasi prediktor lain?
mike
Ya, @mike. Dengan asumsi model ditentukan dengan benar, Anda dapat menafsirkannya sebagai rasio odds ketika prediktor lain semuanya diperbaiki.
Makro
@ Macro: apakah Anda keberatan menyatakan kembali komentar Anda sebagai jawaban?
jrennie

Jawaban:

22

Jika Anda hanya memasukkan satu-satunya prediktor ke dalam model, maka rasio peluang antara prediktor dan responsnya akan sama persis dengan koefisien regresi eksponensial . Saya tidak berpikir derivasi dari hasil ini hadir di situs, jadi saya akan mengambil kesempatan ini untuk menyediakannya.


Pertimbangkan hasil biner dan prediktor biner tunggal :YX

Y=1Y=0X=1p11p10X=0p01p00

Kemudian, salah satu cara untuk menghitung rasio odds antara dan adalahXiYi

OR=p11p00p01p10

Dengan definisi probabilitas bersyarat, . Dalam rasio tersebut, probabilitas marginal yang melibatkan dibatalkan dan Anda dapat menulis ulang rasio odds dalam hal probabilitas kondisional :pij=P(Y=i|X=j)P(X=j)XY|X

OR=P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Dalam regresi logistik, Anda memodelkan probabilitas ini secara langsung:

log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi

Jadi kita bisa menghitung probabilitas bersyarat ini langsung dari model. Rasio pertama dalam ekspresi untuk atas adalah:OR

P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e(β0+β1))(e(β0+β1)1+e(β0+β1))=1e(β0+β1)=e(β0+β1)

dan yang kedua adalah:

P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(eβ01+eβ0)(11+eβ0)=eβ0

memasukkan ini kembali ke rumus, kita memiliki , yang merupakan hasilnya.OR=e(β0+β1)eβ0=eβ1

Catatan: Ketika Anda memiliki prediktor lain, sebut mereka , dalam model, koefisien regresi eksponensial (menggunakan derivasi yang serupa) sebenarnyaZ1,...,Zp

P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)

sehingga rasio odds tergantung pada nilai-nilai prediktor lain dalam model dan, secara umum, tidak sama dengan

P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Jadi, tidak mengherankan bahwa Anda mengamati perbedaan antara koefisien eksponensial dan rasio odds yang diamati.

Catatan 2: Saya memperoleh hubungan antara true dan rasio peluang sebenarnya tetapi perhatikan bahwa hubungan yang sama berlaku untuk jumlah sampel karena regresi logistik yang sesuai dengan satu prediktor biner akan mereproduksi entri dua-dua. meja. Artinya, alat yang dipasang sama persis dengan rata-rata sampel, seperti halnya dengan GLM. Jadi, semua logika yang digunakan di atas berlaku dengan nilai sebenarnya diganti dengan jumlah sampel. β

Makro
sumber
2
Wow, terima kasih telah meluangkan waktu untuk menulis penjelasan yang lengkap.
mike
@ Macro Saya menemukan bahwa "p-value kurang dari 0,05" dan "95% CI tidak termasuk 1" tidak konsisten dalam regresi logistik (saya menggunakan SAS). Apakah fenomena ini terkait dengan penjelasan Anda?
user67275
4

Anda memiliki jawaban yang sangat bagus dari @ Macro (+1), yang telah menunjukkan bahwa rasio odds sederhana (marjinal) dihitung tanpa referensi ke model dan rasio odds diambil dari model regresi logistik berganda ( ) secara umum tidak sama. Saya ingin tahu apakah saya masih dapat berkontribusi sedikit informasi terkait di sini, khususnya menjelaskan kapan mereka akan dan tidak akan sama. exp(β)

Nilai beta dalam regresi logistik, seperti dalam regresi OLS, tentukan perubahan ceteris paribus pada parameter yang mengatur distribusi respons yang terkait dengan perubahan 1 unit dalam kovariat. (Untuk regresi logistik, ini adalah perubahan dalam logit dari probabilitas 'sukses', sedangkan untuk regresi OLS itu adalah rata-rata, .) Yaitu, itu adalah perubahan yang semuanya sama . Beta eksponensial adalah rasio odds ceteris paribus yang serupa. Dengan demikian, masalah pertama adalah memastikan bahwa hal ini mungkin bermakna. Secara khusus, kovariat yang dimaksud tidak boleh ada dalam istilah lain (misalnya, dalam interaksi, atau istilah polinom) di tempat lain dalam model. (Perhatikan bahwa di sini saya mengacu pada istilah yang disertakanμdalam model Anda, tetapi ada juga masalah jika hubungan yang sebenarnya bervariasi antar level kovariat lain tetapi istilah interaksi tidak dimasukkan, misalnya.) Setelah kami menetapkan bahwa menghitung rasio odds dengan mengeksonitasi beta dari sebuah model regresi logistik, kita dapat mengajukan pertanyaan kapan rasio odds berbasis-model dan marginal berbeda, dan mana yang harus Anda pilih ketika mereka lakukan?

Alasan OR ini akan berbeda adalah karena kovariat lain yang termasuk dalam model Anda tidak ortogonal dengan yang bersangkutan. Misalnya, Anda dapat memeriksa dengan menjalankan korelasi sederhana antara kovariat Anda (tidak peduli apa nilai-p, atau jika kovariat Anda alih-alih berkelanjutan, intinya adalah ). Di sisi lain, ketika semua kovariat Anda ortogonal dengan yang dimaksud, akan sama dengan marginal OR. r 0 exp ( β )0/1r0exp(β)

Jika OR marginal dan model berbasis OR berbeda, Anda harus menggunakan / menginterpretasikan versi berbasis model. Alasannya adalah bahwa OR marjinal tidak memperhitungkan perancu di antara kovariat Anda, sedangkan model melakukannya. Fenomena ini terkait dengan Paradox Simpson , yang mungkin ingin Anda baca (SEP juga memiliki entri yang bagus , ada diskusi tentang CV di sini: Basic-simpson's-paradox , dan Anda dapat mencari di tag CV ). Demi kesederhanaan dan kepraktisan, Anda mungkin ingin hanya menggunakan model berbasis ATAU, karena akan lebih baik atau sama.

gung - Pasang kembali Monica
sumber