Saya adalah pendatang baru untuk analisis survival, meskipun saya memiliki beberapa pengetahuan dalam klasifikasi dan regresi.
Untuk regresi, kami memiliki statistik MSE dan R square. Tetapi bagaimana kita dapat mengatakan bahwa model survival A lebih unggul daripada model survival B selain beberapa jenis plot grafis (kurva KM)?
Jika memungkinkan, tolong jelaskan perbedaannya dengan contoh (misalnya, paket rpart di R). Bagaimana Anda bisa menunjukkan bahwa satu pohon survival CART lebih baik daripada pohon survival CART lainnya? Metrik apa yang bisa digunakan?
regression
survival
goodness-of-fit
cart
rpart
banjir
sumber
sumber
Jawaban:
Masalah utama dengan statistik seperti model CoxR2 (dijelaskan dalam jawaban lain) adalah sangat tergantung pada distribusi sensor data Anda. Hal-hal alami lain yang mungkin Anda lihat, seperti rasio kemungkinan terhadap model nol, juga memiliki masalah ini. (Ini pada dasarnya karena kontribusi datapoint yang disensor pada kemungkinan sangat berbeda dari kontribusi datapoint di mana peristiwa tersebut diamati, karena salah satunya berasal dari PDF dan salah satunya berasal dari CDF.) Berbagai peneliti memiliki mengusulkan cara untuk mengatasi ini, tetapi yang saya lihat biasanya mengharuskan Anda untuk memiliki model distribusi sensor atau sesuatu yang sama-sama tidak praktis. Saya belum melihat seberapa buruk ketergantungan ini dalam praktiknya, jadi jika sensor Anda cukup ringan, Anda masih bisa melihat statistik berbasis rasio kemungkinan. Untuk model survival CART,
Untuk model survival generik, satu statistik yang sering digunakan adalah Harrell's c index, analog dari Kendall atau ROC AUC untuk model survival. Pada dasarnya, c adalah proporsinya, dari semua kejadian di mana Anda tahu bahwa satu kejadian mengalami peristiwa lebih lama daripada yang lain, bahwa peringkat model dengan benar. (Dengan kata lain, untuk sepasang instance yang dimasukkan dalam penyebut di sini, paling banyak satu dapat disensor, dan harus disensor setelah yang lainnya mengalami suatu peristiwa.) Indeks c juga tergantung pada distribusi sensor, tetapi menurut Harrell ketergantungannya lebih ringan daripada statistik lain yang saya sebutkan di atas. Sayangnya, Harrell cτ juga kurang sensitif daripada statistik di atas, jadi Anda mungkin tidak ingin memilih antara model berdasarkan itu jika perbedaan antara mereka kecil; ini lebih berguna sebagai indeks kinerja umum yang dapat ditafsirkan daripada cara untuk membandingkan model yang berbeda.
(Terakhir, tentu saja jika Anda memiliki tujuan spesifik dalam pikiran untuk model - yaitu, jika Anda tahu apa fungsi kerugian prediksi Anda - Anda selalu dapat mengevaluasi mereka sesuai dengan fungsi kerugian! Tapi saya kira Anda ' tidak begitu beruntung ...)
Untuk diskusi yang lebih mendalam tentang statistik rasio kemungkinan dan c Harrell , Anda harus melihat buku teks Strategi Pemodelan Regresi Harrell yang sangat bagus . Bagian tentang evaluasi model survival adalah §19.10, hlm. 492-493. Maaf saya tidak bisa memberi Anda satu jawaban pasti, tapi saya rasa ini bukan masalah yang sudah dipecahkan!
sumber
Regresi bahaya proporsional Cox untuk data kelangsungan hidup dapat dianggap sesuai dengan regresi standar dalam banyak hal. Misalnya, regresi Cox juga memberikan kesalahan standar residual dan statistik R-square. Lihat
coxph
fungsi dalamsurvival
paket R. (Anda dapat menganggap kurva KM sesuai dengan analisis non-parametrik dalam statistik standar. Bagaimana Anda memasukkan tes non-parametrik ke dalam CART?) Dalam praktik dengan data klinis, kesalahan standar residual cenderung tinggi dan nilai R-square rendah. dalam regresi Cox.Dengan demikian regresi standar dan regresi Cox memiliki persyaratan dan batasan yang serupa. Anda harus memverifikasi bahwa data tersebut sesuai dengan asumsi yang mendasarinya, yang dalam analisis Cox lebih lanjut mencakup asumsi bahwa bahaya yang dibandingkan sebanding dengan waktu. Anda masih harus menghindari pemasangan berlebihan dan Anda harus memvalidasi model Anda. Dan seperti yang saya pahami CART, walaupun saya tidak menggunakannya sendiri, Anda masih akan menghadapi kesulitan yang ditimbulkan dengan membandingkan model yang tidak bersarang.
sumber
rpart
paket R dan kode lainnya.