Seperti yang saya pahami, nilai beta eksponensial dari regresi logistik adalah rasio odds dari variabel tersebut untuk variabel dependen yang menarik. Namun, nilainya tidak sesuai dengan rasio odds yang dihitung secara manual. Model saya memprediksi stunting (ukuran kekurangan gizi) menggunakan, di antara indikator lain, asuransi.
// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc.
or_insurance = exp(beta_value_insurance)
// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins
Apa alasan konseptual untuk nilai-nilai ini berbeda? Mengontrol faktor-faktor lain dalam regresi? Hanya ingin bisa menjelaskan perbedaannya.
regression
logistic
interpretation
odds-ratio
mikrofon
sumber
sumber
Jawaban:
Jika Anda hanya memasukkan satu-satunya prediktor ke dalam model, maka rasio peluang antara prediktor dan responsnya akan sama persis dengan koefisien regresi eksponensial . Saya tidak berpikir derivasi dari hasil ini hadir di situs, jadi saya akan mengambil kesempatan ini untuk menyediakannya.
Pertimbangkan hasil biner dan prediktor biner tunggal :Y X
Kemudian, salah satu cara untuk menghitung rasio odds antara dan adalahXi Yi
Dengan definisi probabilitas bersyarat, . Dalam rasio tersebut, probabilitas marginal yang melibatkan dibatalkan dan Anda dapat menulis ulang rasio odds dalam hal probabilitas kondisional :pij=P(Y=i|X=j)⋅P(X=j) X Y|X
Dalam regresi logistik, Anda memodelkan probabilitas ini secara langsung:
Jadi kita bisa menghitung probabilitas bersyarat ini langsung dari model. Rasio pertama dalam ekspresi untuk atas adalah:OR
dan yang kedua adalah:
memasukkan ini kembali ke rumus, kita memiliki , yang merupakan hasilnya.OR=e(β0+β1)⋅e−β0=eβ1
Catatan: Ketika Anda memiliki prediktor lain, sebut mereka , dalam model, koefisien regresi eksponensial (menggunakan derivasi yang serupa) sebenarnyaZ1,...,Zp
sehingga rasio odds tergantung pada nilai-nilai prediktor lain dalam model dan, secara umum, tidak sama dengan
Jadi, tidak mengherankan bahwa Anda mengamati perbedaan antara koefisien eksponensial dan rasio odds yang diamati.
Catatan 2: Saya memperoleh hubungan antara true dan rasio peluang sebenarnya tetapi perhatikan bahwa hubungan yang sama berlaku untuk jumlah sampel karena regresi logistik yang sesuai dengan satu prediktor biner akan mereproduksi entri dua-dua. meja. Artinya, alat yang dipasang sama persis dengan rata-rata sampel, seperti halnya dengan GLM. Jadi, semua logika yang digunakan di atas berlaku dengan nilai sebenarnya diganti dengan jumlah sampel.β
sumber
Anda memiliki jawaban yang sangat bagus dari @ Macro (+1), yang telah menunjukkan bahwa rasio odds sederhana (marjinal) dihitung tanpa referensi ke model dan rasio odds diambil dari model regresi logistik berganda ( ) secara umum tidak sama. Saya ingin tahu apakah saya masih dapat berkontribusi sedikit informasi terkait di sini, khususnya menjelaskan kapan mereka akan dan tidak akan sama.exp(β)
Nilai beta dalam regresi logistik, seperti dalam regresi OLS, tentukan perubahan ceteris paribus pada parameter yang mengatur distribusi respons yang terkait dengan perubahan 1 unit dalam kovariat. (Untuk regresi logistik, ini adalah perubahan dalam logit dari probabilitas 'sukses', sedangkan untuk regresi OLS itu adalah rata-rata, .) Yaitu, itu adalah perubahan yang semuanya sama . Beta eksponensial adalah rasio odds ceteris paribus yang serupa. Dengan demikian, masalah pertama adalah memastikan bahwa hal ini mungkin bermakna. Secara khusus, kovariat yang dimaksud tidak boleh ada dalam istilah lain (misalnya, dalam interaksi, atau istilah polinom) di tempat lain dalam model. (Perhatikan bahwa di sini saya mengacu pada istilah yang disertakanμ dalam model Anda, tetapi ada juga masalah jika hubungan yang sebenarnya bervariasi antar level kovariat lain tetapi istilah interaksi tidak dimasukkan, misalnya.) Setelah kami menetapkan bahwa menghitung rasio odds dengan mengeksonitasi beta dari sebuah model regresi logistik, kita dapat mengajukan pertanyaan kapan rasio odds berbasis-model dan marginal berbeda, dan mana yang harus Anda pilih ketika mereka lakukan?
Alasan OR ini akan berbeda adalah karena kovariat lain yang termasuk dalam model Anda tidak ortogonal dengan yang bersangkutan. Misalnya, Anda dapat memeriksa dengan menjalankan korelasi sederhana antara kovariat Anda (tidak peduli apa nilai-p, atau jika kovariat Anda alih-alih berkelanjutan, intinya adalah ). Di sisi lain, ketika semua kovariat Anda ortogonal dengan yang dimaksud, akan sama dengan marginal OR. r ≠ 0 exp ( β )0/1 r≠0 exp(β)
Jika OR marginal dan model berbasis OR berbeda, Anda harus menggunakan / menginterpretasikan versi berbasis model. Alasannya adalah bahwa OR marjinal tidak memperhitungkan perancu di antara kovariat Anda, sedangkan model melakukannya. Fenomena ini terkait dengan Paradox Simpson , yang mungkin ingin Anda baca (SEP juga memiliki entri yang bagus , ada diskusi tentang CV di sini: Basic-simpson's-paradox , dan Anda dapat mencari di tag simpsons-paradox CV ). Demi kesederhanaan dan kepraktisan, Anda mungkin ingin hanya menggunakan model berbasis ATAU, karena akan lebih baik atau sama.
sumber