Saya mengalami kesulitan mencoba memahami penggunaan regresi logistik dalam sebuah makalah. Makalah yang tersedia di sini menggunakan regresi logistik untuk memprediksi kemungkinan komplikasi selama operasi katarak.
Yang membingungkan saya adalah bahwa makalah ini menyajikan model yang menetapkan rasio odds 1 terhadap baseline yang dijelaskan sebagai berikut:
Seorang pasien yang profil risikonya berada dalam kelompok referensi untuk semua indikator risiko (yaitu OR yang disesuaikan = 1,00 untuk semua pada Tabel 1) dapat dianggap memiliki 'profil risiko dasar', dan model regresi logistik menunjukkan 'probabilitas prediksi awal' untuk PCR atau VL atau keduanya = 0,736%.
Jadi probabilitas 0,00736 disajikan dengan rasio odds 1. Berdasarkan transformasi dari probabilitas ke rasio odds: , ini tidak bisa sama dengan 1: . 0,00741=0,00736
Itu menjadi lebih membingungkan. Rasio odds gabungan yang mewakili banyak kovariat yang memiliki nilai berbeda dari baseline digunakan untuk menghitung risiko yang diprediksi.
... OR komposit dari Tabel 1 akan menjadi 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5, dan dari grafik pada Gambar 1, kita melihat bahwa OR ini sesuai dengan probabilitas prediksi PCR atau VL atau keduanya. sekitar 20%
Satu-satunya cara untuk sampai pada nilai yang diberikan oleh kertas sebagai contoh adalah dengan mengalikan probabilitas dasar dengan peluang gabungan seperti ini: .
Jadi apa yang terjadi di sini? Apa logika untuk menetapkan rasio odds 1 ke probabilitas baseline yang bukan 0,5? Rumus pembaruan yang saya buat di atas muncul dengan probabilitas yang tepat untuk contoh di koran, tetapi ini bukan perkalian langsung dari rasio peluang yang saya harapkan. Lalu apa itu?
sumber
Jawaban:
Peluang adalah cara untuk mengekspresikan peluang. Rasio peluang hanya itu: satu peluang dibagi dengan yang lain. Itu berarti rasio odds adalah apa yang Anda kalikan satu peluang dengan menghasilkan yang lain. Mari kita lihat bagaimana mereka bekerja dalam situasi bersama ini.
Konversi antara peluang dan probabilitas
Peluang dari respons biner adalah rasio dari kemungkinan terjadinya (dikodekan dengan 1 ), ditulis Pr ( Y =Y 1 , dengan peluang tidak (dikodekan dengan 0 ), dituliskan Pr ( Y = 0 ) :Pr ( Y= 1 ) 0 Pr ( Y= 0 )
Ekspresi ekuivalen di sebelah kanan menunjukkan cukup untuk memodelkan untuk menemukan peluang. Sebaliknya, perhatikan bahwa kita dapat menyelesaikannyaPr ( Y= 1 )
Regresi logistik
Regresi logistik memodelkan logaritma peluang sebagai fungsi linear dari variabel penjelas. Paling umum, menulis variabel-variabel ini sebagai x 1 , ... , x p , dan termasuk kemungkinan istilah konstan dalam fungsi linier, kita dapat menamai koefisien (yang diperkirakan dari data) sebagai β 1 , ...Y x1,…,xp dan β 0 . Secara formal ini menghasilkan modelβ1,…,βp β0
Peluang itu sendiri dapat dipulihkan dengan membatalkan logaritma:
Menggunakan variabel kategori
Variabel kategorikal, seperti kelompok umur, jenis kelamin, keberadaan Glaukoma, dll. , Digabungkan dengan menggunakan "dummy coding." Untuk menunjukkan bahwa bagaimana variabel dikodekan tidak masalah, saya akan memberikan contoh sederhana dari satu kelompok kecil; generalisasi ke banyak kelompok harus jelas. Dalam penelitian ini satu variabel adalah "ukuran murid," dengan tiga kategori, "Besar", "Sedang", dan "Kecil". (Studi ini memperlakukan ini sebagai murni kategori, tampaknya tidak memperhatikan urutan bawaannya.) Secara intuitif, setiap kategori memiliki peluangnya sendiri, katakan untuk "Besar", α M untuk "Sedang", dan α S untuk "Kecil" . Ini berarti bahwa, semua hal lain sama,αL. αM. αS
untuk siapa saja di kategori "Besar",
untuk siapa saja dalam kategori "Sedang", dan
untuk mereka yang berada di kategori "Kecil".
Membuat koefisien yang dapat diidentifikasi
Saya telah mewarnai dua koefisien pertama untuk menyorotnya, karena saya ingin Anda memperhatikan bahwa mereka memungkinkan perubahan sederhana terjadi: kita dapat memilih angka dan, dengan menambahkannya ke β 0 dan mengurangkannya dari masing-masing α L , α M , dan α S , kami tidak akan mengubah peluang prediksi. Ini karena persamaan bentuk yang jelasγ β0 αL αM αS
dll. Meskipun ini tidak menimbulkan masalah untuk model - masih memprediksi hal yang persis sama - ini menunjukkan bahwa parameter tidak dapat ditafsirkan dengan sendirinya. Apa yang tetap sama ketika kita melakukan manuver penjumlahan-pengurangan ini adalah perbedaan antara koefisien. Secara konvensional, untuk mengatasi kurangnya pengidentifikasian ini, orang-orang (dan secara default, perangkat lunak) memilih salah satu kategori dalam setiap variabel sebagai "basis" atau "referensi" dan hanya menetapkan bahwa koefisiennya akan nol. Ini menghilangkan ambiguitas.
Peluang log untuk individu hipotetis jatuh ke semua kategori dasar karena itu samaβ0
Membandingkan peluang
Mari kita bandingkan peluang. Misalkan individu hipotetis adalah a
Ini adalah jumlah dimana log odds pasien ini bervariasi dari basis. Untuk mengonversi dari peluang log, batalkan logaritma dan ingat bahwa ini mengubah penambahan menjadi multiplikasi. Oleh karena itu, peluang dasar harus dikalikan dengan
Mengembalikan hasil sebagai probabilitas
Akibatnya peluang Charlie adalah
Finally, converting this back to probabilities gives
sumber