Bantu saya memahami rasio odds yang disesuaikan dalam regresi logistik

20

Saya mengalami kesulitan mencoba memahami penggunaan regresi logistik dalam sebuah makalah. Makalah yang tersedia di sini menggunakan regresi logistik untuk memprediksi kemungkinan komplikasi selama operasi katarak.

Yang membingungkan saya adalah bahwa makalah ini menyajikan model yang menetapkan rasio odds 1 terhadap baseline yang dijelaskan sebagai berikut:

Seorang pasien yang profil risikonya berada dalam kelompok referensi untuk semua indikator risiko (yaitu OR yang disesuaikan = 1,00 untuk semua pada Tabel 1) dapat dianggap memiliki 'profil risiko dasar', dan model regresi logistik menunjukkan 'probabilitas prediksi awal' untuk PCR atau VL atau keduanya = 0,736%.

Jadi probabilitas 0,00736 disajikan dengan rasio odds 1. Berdasarkan transformasi dari probabilitas ke rasio odds: , ini tidak bisa sama dengan 1: . 0,00741=0,00736Hai=hal1-hal0,00741=0.0073610.00736

Itu menjadi lebih membingungkan. Rasio odds gabungan yang mewakili banyak kovariat yang memiliki nilai berbeda dari baseline digunakan untuk menghitung risiko yang diprediksi.

... OR komposit dari Tabel 1 akan menjadi 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5, dan dari grafik pada Gambar 1, kita melihat bahwa OR ini sesuai dengan probabilitas prediksi PCR atau VL atau keduanya. sekitar 20%

Satu-satunya cara untuk sampai pada nilai yang diberikan oleh kertas sebagai contoh adalah dengan mengalikan probabilitas dasar dengan peluang gabungan seperti ini: .0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)

Jadi apa yang terjadi di sini? Apa logika untuk menetapkan rasio odds 1 ke probabilitas baseline yang bukan 0,5? Rumus pembaruan yang saya buat di atas muncul dengan probabilitas yang tepat untuk contoh di koran, tetapi ini bukan perkalian langsung dari rasio peluang yang saya harapkan. Lalu apa itu?

mahonya
sumber
8
Anda mungkin memiliki kebingungan sederhana tentang terminologi: adalahodds, bukan rasio odds. Rasio peluang adalah pembagian satu ekspresi dengan yang lain. hal/(1-hal)
Whuber

Jawaban:

35

Peluang adalah cara untuk mengekspresikan peluang. Rasio peluang hanya itu: satu peluang dibagi dengan yang lain. Itu berarti rasio odds adalah apa yang Anda kalikan satu peluang dengan menghasilkan yang lain. Mari kita lihat bagaimana mereka bekerja dalam situasi bersama ini.

Konversi antara peluang dan probabilitas

Peluang dari respons biner adalah rasio dari kemungkinan terjadinya (dikodekan dengan 1 ), ditulis Pr ( Y =Y1 , dengan peluang tidak (dikodekan dengan 0 ), dituliskan Pr ( Y = 0 ) :Pr(Y=1)0Pr(Y=0)

Peluang(Y)=Pr(Y=1)Pr(Y=0)=Pr(Y=1)1-Pr(Y=1).

Ekspresi ekuivalen di sebelah kanan menunjukkan cukup untuk memodelkan untuk menemukan peluang. Sebaliknya, perhatikan bahwa kita dapat menyelesaikannyaPr(Y=1)

Pr(Y=1)=Odds(Y)1+Odds(Y)=111+Odds(Y).

Regresi logistik

Regresi logistik memodelkan logaritma peluang sebagai fungsi linear dari variabel penjelas. Paling umum, menulis variabel-variabel ini sebagai x 1 , ... , x p , dan termasuk kemungkinan istilah konstan dalam fungsi linier, kita dapat menamai koefisien (yang diperkirakan dari data) sebagai β 1 , ...Yx1,,xp dan β 0 . Secara formal ini menghasilkan modelβ1,,βpβ0

catatan(Peluang(Y))=β0+β1x1++βhalxhal.

Peluang itu sendiri dapat dipulihkan dengan membatalkan logaritma:

Peluang(Y)=exp(β0+β1x1++βhalxhal).

Menggunakan variabel kategori

Variabel kategorikal, seperti kelompok umur, jenis kelamin, keberadaan Glaukoma, dll. , Digabungkan dengan menggunakan "dummy coding." Untuk menunjukkan bahwa bagaimana variabel dikodekan tidak masalah, saya akan memberikan contoh sederhana dari satu kelompok kecil; generalisasi ke banyak kelompok harus jelas. Dalam penelitian ini satu variabel adalah "ukuran murid," dengan tiga kategori, "Besar", "Sedang", dan "Kecil". (Studi ini memperlakukan ini sebagai murni kategori, tampaknya tidak memperhatikan urutan bawaannya.) Secara intuitif, setiap kategori memiliki peluangnya sendiri, katakan untuk "Besar", α M untuk "Sedang", dan α S untuk "Kecil" . Ini berarti bahwa, semua hal lain sama,αL.αM.αS

Peluang(Y)=exp(αL.+β0+β1x1++βhalxhal)

untuk siapa saja di kategori "Besar",

Odds(Y)=exp(αM+β0+β1x1++βpxp)

untuk siapa saja dalam kategori "Sedang", dan

Odds(Y)=exp(αS+β0+β1x1++βpxp)

untuk mereka yang berada di kategori "Kecil".

Membuat koefisien yang dapat diidentifikasi

Saya telah mewarnai dua koefisien pertama untuk menyorotnya, karena saya ingin Anda memperhatikan bahwa mereka memungkinkan perubahan sederhana terjadi: kita dapat memilih angka dan, dengan menambahkannya ke β 0 dan mengurangkannya dari masing-masing α L , α M , dan α S , kami tidak akan mengubah peluang prediksi. Ini karena persamaan bentuk yang jelasγβ0αLαMαS

αL+β0=(αLγ)+(γ+β0),

dll. Meskipun ini tidak menimbulkan masalah untuk model - masih memprediksi hal yang persis sama - ini menunjukkan bahwa parameter tidak dapat ditafsirkan dengan sendirinya. Apa yang tetap sama ketika kita melakukan manuver penjumlahan-pengurangan ini adalah perbedaan antara koefisien. Secara konvensional, untuk mengatasi kurangnya pengidentifikasian ini, orang-orang (dan secara default, perangkat lunak) memilih salah satu kategori dalam setiap variabel sebagai "basis" atau "referensi" dan hanya menetapkan bahwa koefisiennya akan nol. Ini menghilangkan ambiguitas.

αLαL,αM,αSβ0

Peluang log untuk individu hipotetis jatuh ke semua kategori dasar karena itu sama β0

Odds(Base category)=exp(β0+β1X1++βpXp).

βiαj

Membandingkan peluang

Mari kita bandingkan peluang. Misalkan individu hipotetis adalah a

pasien laki-laki berusia 80-89 tahun dengan katarak putih, tanpa pandangan fundus, dan seorang murid kecil yang dioperasi oleh petugas khusus, ...

α80-89αmale

α80-89+αmale+αno Glaucoma++αspecialist registrar.

Ini adalah jumlah dimana log odds pasien ini bervariasi dari basis. Untuk mengonversi dari peluang log, batalkan logaritma dan ingat bahwa ini mengubah penambahan menjadi multiplikasi. Oleh karena itu, peluang dasar harus dikalikan dengan

exp(α80-89)exp(αmale)exp(αno Glaucoma)exp(αspecialist registrar).

x1,,xpexp(α80-89)=1.58exp(αmale)=1.28exp(αno Glaucoma)=1.0034.5

Odds(Charlie)=34.5×Odds(Base).

1.00=exp(0)1 dalam produk tidak berubah. Itulah cara Anda dapat menemukan kategori dasar dalam tabel.)

Mengembalikan hasil sebagai probabilitas

0.736%=0.00736

Odds(Base)=0.0073610.00736=0.00741.

Akibatnya peluang Charlie adalah

Odds(Charlie)=34.5×0.00741=0.256.

Finally, converting this back to probabilities gives

Pr(Y(Charlie)=1)=111+0.256=0.204.
whuber
sumber
3
whuber: masuk ke depan komputer saya setelah hari yang sangat melelahkan dan menemukan respons luar biasa dari Anda ini benar-benar brilian. Anda telah banyak membantu saya dalam situasi yang sangat ketat. Terimakasih banyak. (entah bagaimana @ whuber tidak akan muncul ...)
mahonya