Saya telah belajar tentang model bahaya proporsional Cox. Saya memiliki banyak pengalaman pas model regresi logistik, dan model sehingga untuk membangun intuisi saya telah membandingkan cocok menggunakan coxph
dari R "survival" dengan model regresi logistik cocok menggunakan glm
dengan family="binomial"
.
Jika saya menjalankan kode:
library(survival)
s = Surv(time=lung$time, event=lung$status - 1)
summary(coxph(s ~ age, data=lung))
summary(glm(status-1 ~ age, data=lung, family="binomial"))
Saya mendapatkan nilai-p untuk usia masing-masing 0,0419 dan 0,0254. Demikian pula jika saya menggunakan seks sebagai alat prediksi, dengan atau tanpa usia.
Saya menemukan ini membingungkan karena saya akan berpikir bahwa mengambil jumlah waktu berlalu ketika pas model akan memberikan lebih banyak kekuatan statistik daripada hanya memperlakukan kematian sebagai hasil biner, sedangkan nilai p akan tampak konsisten dengan yang memiliki lebih sedikit kekuatan statistik. Apa yang terjadi disini?
Jawaban:
Model regresi logistik mengasumsikan responnya adalah uji coba Bernoulli (atau lebih umum binomial, tetapi untuk kesederhanaan, kami akan menyimpannya 0-1). Sebuah model survival mengasumsikan bahwa responnya biasanya waktu untuk peristiwa (sekali lagi, ada generalisasi dari ini yang akan kita lewati). Cara lain untuk mengatakannya adalah bahwa unit melewati serangkaian nilai sampai suatu peristiwa terjadi. Bukannya sebuah koin sebenarnya dibalik secara terpisah pada setiap titik. (Itu bisa terjadi, tentu saja, tetapi kemudian Anda akan membutuhkan model untuk tindakan berulang-ulang — mungkin GLMM.)
Model regresi logistik Anda mengambil setiap kematian sebagai flip koin yang terjadi pada usia itu dan muncul ekor. Demikian juga, ia menganggap setiap datum yang disensor sebagai flip koin tunggal yang terjadi pada usia yang ditentukan dan muncul kepala. Masalahnya di sini adalah bahwa itu tidak konsisten dengan apa sebenarnya data tersebut.
Berikut adalah beberapa plot data, dan output dari model. (Perhatikan bahwa saya membalik prediksi dari model regresi logistik menjadi prediksi yang hidup sehingga garis tersebut cocok dengan plot kepadatan bersyarat.)
Mungkin bermanfaat untuk mempertimbangkan situasi di mana data tersebut sesuai untuk analisis survival atau regresi logistik. Bayangkan sebuah penelitian untuk menentukan probabilitas bahwa seorang pasien akan diterima kembali ke rumah sakit dalam waktu 30 hari setelah dikeluarkan berdasarkan protokol atau standar perawatan baru. Namun, semua pasien diikuti untuk masuk kembali, dan tidak ada sensor (ini tidak terlalu realistis), sehingga waktu yang tepat untuk pendaftaran kembali dapat dianalisis dengan analisis kelangsungan hidup (yaitu, model bahaya proporsional Cox di sini). Untuk mensimulasikan situasi ini, saya akan menggunakan distribusi eksponensial dengan harga 0,5 dan 1, dan menggunakan nilai 1 sebagai cutoff untuk mewakili 30 hari:
Dalam hal ini, kita melihat bahwa p-value dari model regresi logistik (
0.163
) adalah lebih tinggi dari p-value dari analisis survival (0.005
). Untuk mengeksplorasi ide ini lebih lanjut, kita dapat memperluas simulasi untuk memperkirakan kekuatan analisis regresi logistik vs analisis survival, dan probabilitas bahwa nilai-p dari model Cox akan lebih rendah daripada nilai-p dari regresi logistik . Saya juga akan menggunakan 1.4 sebagai ambang, sehingga saya tidak merugikan regresi logistik dengan menggunakan cutoff suboptimal:Jadi kekuatan regresi logistik adalah rendah (sekitar 75%) dari analisis survival (sekitar 93%), dan 90% dari p-nilai dari analisis survival lebih rendah dari p-nilai yang sesuai dari regresi logistik. Memperhitungkan waktu jeda, alih-alih hanya kurang dari atau lebih besar dari beberapa ambang batas, menghasilkan lebih banyak kekuatan statistik seperti yang telah Anda intuisi.
sumber