Bagaimana cara mengevaluasi kebaikan yang sesuai untuk fungsi yang bertahan

9

Saya adalah pendatang baru untuk analisis survival, meskipun saya memiliki beberapa pengetahuan dalam klasifikasi dan regresi.

Untuk regresi, kami memiliki statistik MSE dan R square. Tetapi bagaimana kita dapat mengatakan bahwa model survival A lebih unggul daripada model survival B selain beberapa jenis plot grafis (kurva KM)?

Jika memungkinkan, tolong jelaskan perbedaannya dengan contoh (misalnya, paket rpart di R). Bagaimana Anda bisa menunjukkan bahwa satu pohon survival CART lebih baik daripada pohon survival CART lainnya? Metrik apa yang bisa digunakan?

banjir
sumber
3
Ada berbagai macam analisis kelangsungan hidup. Beberapa di antaranya memang berdasarkan regresi. Beberapa dari mereka, seperti KM, mungkin lebih mudah dianggap sebagai penaksir untuk statistik terkait kelangsungan hidup.
Alexis
Terima kasih atas upaya berkelanjutan Anda untuk meningkatkan pertanyaan Anda. Saya menduga itu bertanggung jawab / sesuai untuk CV sekarang. Saya telah menominasikannya untuk dibuka kembali. Kami akan melihat apakah orang lain setuju. Mungkin membantu jika Anda dapat memposting dua model survival tipe-CART untuk digunakan orang dalam menjelaskan masalah ini.
gung - Reinstate Monica
1
Ben, Jadi pada dasarnya Anda mengatakan bahwa dalam Regresi Bahaya Proportional Cox, tidak ada (sejauh ini) cara yang baik untuk mengevaluasi kebaikan fit? R-Square tidak mengarah pada hasil yang baik karena tidak bisa menangani pengamatan yang disensor dan pengamatan yang tidak disensor dengan benar? Anda sedang berbicara tentang Harrells c, apakah saya mengerti Anda benar bahwa metode ini tidak berlaku untuk Regresi Cox-PH?
Kosta S.

Jawaban:

9

Masalah utama dengan statistik seperti model CoxR2(dijelaskan dalam jawaban lain) adalah sangat tergantung pada distribusi sensor data Anda. Hal-hal alami lain yang mungkin Anda lihat, seperti rasio kemungkinan terhadap model nol, juga memiliki masalah ini. (Ini pada dasarnya karena kontribusi datapoint yang disensor pada kemungkinan sangat berbeda dari kontribusi datapoint di mana peristiwa tersebut diamati, karena salah satunya berasal dari PDF dan salah satunya berasal dari CDF.) Berbagai peneliti memiliki mengusulkan cara untuk mengatasi ini, tetapi yang saya lihat biasanya mengharuskan Anda untuk memiliki model distribusi sensor atau sesuatu yang sama-sama tidak praktis. Saya belum melihat seberapa buruk ketergantungan ini dalam praktiknya, jadi jika sensor Anda cukup ringan, Anda masih bisa melihat statistik berbasis rasio kemungkinan. Untuk model survival CART,

Untuk model survival generik, satu statistik yang sering digunakan adalah Harrell's c index, analog dari Kendall atau ROC AUC untuk model survival. Pada dasarnya, c adalah proporsinya, dari semua kejadian di mana Anda tahu bahwa satu kejadian mengalami peristiwa lebih lama daripada yang lain, bahwa peringkat model dengan benar. (Dengan kata lain, untuk sepasang instance yang dimasukkan dalam penyebut di sini, paling banyak satu dapat disensor, dan harus disensor setelah yang lainnya mengalami suatu peristiwa.) Indeks c juga tergantung pada distribusi sensor, tetapi menurut Harrell ketergantungannya lebih ringan daripada statistik lain yang saya sebutkan di atas. Sayangnya, Harrell cτjuga kurang sensitif daripada statistik di atas, jadi Anda mungkin tidak ingin memilih antara model berdasarkan itu jika perbedaan antara mereka kecil; ini lebih berguna sebagai indeks kinerja umum yang dapat ditafsirkan daripada cara untuk membandingkan model yang berbeda.

(Terakhir, tentu saja jika Anda memiliki tujuan spesifik dalam pikiran untuk model - yaitu, jika Anda tahu apa fungsi kerugian prediksi Anda - Anda selalu dapat mengevaluasi mereka sesuai dengan fungsi kerugian! Tapi saya kira Anda ' tidak begitu beruntung ...)

Untuk diskusi yang lebih mendalam tentang statistik rasio kemungkinan dan c Harrell , Anda harus melihat buku teks Strategi Pemodelan Regresi Harrell yang sangat bagus . Bagian tentang evaluasi model survival adalah §19.10, hlm. 492-493. Maaf saya tidak bisa memberi Anda satu jawaban pasti, tapi saya rasa ini bukan masalah yang sudah dipecahkan!

Ben Kuhn
sumber
5

Regresi bahaya proporsional Cox untuk data kelangsungan hidup dapat dianggap sesuai dengan regresi standar dalam banyak hal. Misalnya, regresi Cox juga memberikan kesalahan standar residual dan statistik R-square. Lihat coxphfungsi dalam survivalpaket R. (Anda dapat menganggap kurva KM sesuai dengan analisis non-parametrik dalam statistik standar. Bagaimana Anda memasukkan tes non-parametrik ke dalam CART?) Dalam praktik dengan data klinis, kesalahan standar residual cenderung tinggi dan nilai R-square rendah. dalam regresi Cox.

Dengan demikian regresi standar dan regresi Cox memiliki persyaratan dan batasan yang serupa. Anda harus memverifikasi bahwa data tersebut sesuai dengan asumsi yang mendasarinya, yang dalam analisis Cox lebih lanjut mencakup asumsi bahwa bahaya yang dibandingkan sebanding dengan waktu. Anda masih harus menghindari pemasangan berlebihan dan Anda harus memvalidasi model Anda. Dan seperti yang saya pahami CART, walaupun saya tidak menggunakannya sendiri, Anda masih akan menghadapi kesulitan yang ditimbulkan dengan membandingkan model yang tidak bersarang.

EdM
sumber
Terima kasih atas jawaban Anda tentang perbedaan dan hubungan antara regresi Cox dan regresi. Tapi saya ingin tahu bagaimana membandingkan dua model survival tree keputusan.
floking
Makalah akses terbuka yang tertaut di projecteuclid.org/euclid.ssu/1315833185 adalah ulasan yang cukup baru dan perbandingan metode untuk membangun dan memilih pohon bertahan hidup, berdasarkan pada rpartpaket R dan kode lainnya.
EdM
Terima kasih telah menunjukkan makalahnya. Saya akan membaca koran sekarang.
floking