Dalam analisis survival, mengapa kita menggunakan model semi-parametrik (bahaya proporsional Cox) alih-alih model sepenuhnya parametrik?

24

Saya telah mempelajari model Cox Proportional Hazards, dan pertanyaan ini dibahas di sebagian besar teks.

Cox mengusulkan menyesuaikan koefisien fungsi Bahaya menggunakan metode kemungkinan parsial, tetapi mengapa tidak hanya sesuai dengan koefisien fungsi Kelangsungan Hidup parametrik menggunakan metode kemungkinan maksimum dan model linier?

Dalam setiap kasus di mana Anda memiliki data yang disensor, Anda bisa menemukan area di bawah kurva. Misalnya, jika perkiraan Anda adalah 380 dengan standar deviasi 80, dan sampel disensor> 300, maka ada kemungkinan 84% untuk sampel tersebut dalam perhitungan kemungkinan dengan asumsi kesalahan normal.

pengguna1956609
sumber
Seperti halnya saya ingin memiliki pertanyaan sains aktuaria di sini, saya harus mengatakan bahwa pertanyaan ini mungkin akan mendapatkan respons yang lebih baik di situs statistik, Cross Validated. Anda dapat meminta moderator untuk memigrasikannya.
Grafik
Baiklah, tidak menyadari itu ada. Tidak yakin bagaimana cara meminta migrasi. Silakan bermigrasi?
@Graphth, saya juga tidak menyadari ada satu ... Saya tidak menemukannya di daftar "semua situs", bisakah Anda menautkannya di sini? Terima kasih

Jawaban:

27

Jika Anda mengetahui distribusi parametrik yang diikuti data Anda, maka gunakan pendekatan kemungkinan maksimum dan distribusinya masuk akal. Keuntungan nyata dari regresi Cox Proportional Hazards adalah Anda masih dapat menyesuaikan model survival tanpa mengetahui (atau mengasumsikan) distribusinya. Anda memberikan contoh menggunakan distribusi normal, tetapi sebagian besar waktu bertahan hidup (dan tipe data lain yang digunakan untuk regresi Cox PH) tidak mendekati mengikuti distribusi normal. Beberapa mungkin mengikuti log-normal, atau Weibull, atau distribusi parametrik lainnya, dan jika Anda bersedia untuk membuat asumsi itu maka pendekatan parametrik kemungkinan maksimum sangat bagus. Tetapi dalam banyak kasus dunia nyata kita tidak tahu apa distribusi yang tepat (atau bahkan perkiraan yang cukup dekat). Dengan menyensor dan kovariat kami tidak dapat melakukan histogram sederhana dan mengatakan "itu terlihat seperti ... distribusi untuk saya". Jadi, sangat berguna untuk memiliki teknik yang berfungsi dengan baik tanpa perlu distribusi khusus.

Mengapa menggunakan bahaya alih-alih fungsi distribusi? Pertimbangkan pernyataan berikut: "Orang-orang dalam kelompok A dua kali lebih mungkin meninggal pada usia 80 tahun daripada orang-orang dalam kelompok B". Nah, itu mungkin benar karena orang-orang dalam kelompok B cenderung hidup lebih lama daripada orang-orang dalam kelompok A, atau bisa juga karena orang-orang dalam kelompok B cenderung hidup lebih pendek dan kebanyakan dari mereka sudah mati jauh sebelum usia 80, memberikan kemungkinan yang sangat kecil dari mereka meninggal pada usia 80 sementara cukup banyak orang dalam kelompok A hidup sampai 80 sehingga cukup banyak dari mereka akan meninggal pada usia itu memberikan kemungkinan kematian yang jauh lebih tinggi pada usia itu. Jadi pernyataan yang sama bisa berarti berada di grup A lebih baik atau lebih buruk daripada berada di grup B. Yang lebih masuk akal adalah, dari orang-orang (dalam setiap kelompok) yang hidup sampai 80, berapa proporsi yang akan mati sebelum mereka berusia 81 tahun. Itu adalah bahaya (dan bahaya adalah fungsi dari fungsi distribusi / fungsi bertahan hidup / dll.). Bahaya lebih mudah untuk dikerjakan dalam model semi-parametrik dan kemudian dapat memberi Anda informasi tentang distribusinya.

Greg Snow
sumber
7
Jawaban bagus. Yang unik tentang waktu adalah bahwa ia melewati satu arah, dan begitu kita bertahan dalam periode berisiko tinggi, kita terutama tertarik pada risiko yang sekarang berlaku. Itulah yang dikatakan fungsi bahaya kepada kita.
Frank Harrell
2
Poin lain yang layak ditambahkan adalah bahwa dengan data yang disensor, memeriksa asumsi distribusi bisa sangat sulit. Misalnya, anggaplah hanya 20% dari subjek Anda yang mengamati suatu peristiwa. Mencoba menentukan apakah ekor dari distribusi mengikuti distribusi Weibull jelas tidak akan mungkin! Model Cox-PH agak menghindari masalah ini (tetapi Anda harus sangat waspada terhadap asumsi bahaya proporsional jika Anda ingin mengekstrapolasi ke area waktu yang sangat disensor)
Cliff AB
16

"Kami" belum tentu. Rentang alat analisis kelangsungan hidup berkisar dari sepenuhnya non-parametrik, seperti metode Kaplan-Meier, hingga model parametrik penuh tempat Anda menentukan distribusi bahaya yang mendasarinya. Masing-masing memiliki kelebihan dan kekurangan.

Metode semi-parametrik, seperti model bahaya proporsional Cox, memungkinkan Anda lolos dengan tidak menentukan fungsi bahaya yang mendasarinya. Ini bisa membantu, karena kita tidak selalu tahu fungsi bahaya yang mendasarinya dan dalam banyak kasus juga tidak peduli . Misalnya, banyak studi epidemiologi ingin tahu "Apakah paparan X mengurangi waktu sampai peristiwa Y?" Yang mereka pedulikan adalah perbedaan pada pasien yang memiliki X dan yang tidak memiliki X. Dalam hal itu, bahaya yang mendasarinya tidak terlalu penting, dan risiko salah menentukan itu lebih buruk daripada konsekuensi jika tidak mengetahuinya.

Namun ada kalanya ini juga tidak benar. Aku sudah melakukan pekerjaan dengan model penuh parametrik karena bahaya yang mendasari adalah menarik.

Fomite
sumber
1
"... dan risiko salah menentukan itu lebih buruk daripada konsekuensi karena tidak mengetahuinya." Ini sangat membantu, terima kasih.
Bisakah Anda memberi contoh kapan bahaya yang mendasarinya menarik?
Dan Chaltiel
1
@DanChaltiel Setiap perkiraan yang dimaksudkan untuk masuk ke model matematika atau sejenisnya akan menjadi contoh - fungsi bahaya yang mendasarinya ada minat khusus.
Fomite