Bagaimana membandingkan kelangsungan hidup rata-rata antar kelompok?

12

Saya mencari cara hidup rata-rata menggunakan Kaplan-Meier di berbagai negara untuk jenis kanker. Ada perbedaan yang cukup besar antara negara bagian. Bagaimana saya bisa membandingkan kelangsungan hidup rata-rata antara semua negara bagian dan menentukan negara mana yang secara signifikan berbeda dari rata-rata kelangsungan hidup rata-rata di seluruh negara?

Misha
sumber
Bisakah Anda memberikan beberapa indikasi tentang ukuran sampel, kerangka waktu,% kelangsungan hidup, dll. Sehingga kami mendapatkan ide yang lebih baik tentang desain studi Anda?
chl
apakah ada nilai yang disensor dalam data - selain untuk nilai terbesar?
ronaf
Memang ada nilai-nilai yang disensor dalam data dan total populasi sekitar 1500, rata-rata kelangsungan hidup keseluruhan adalah 18 bulan (kisaran 300-600 hari) ... kerangka waktu adalah periode 2000-2007.
Misha

Jawaban:

6

Satu hal yang perlu diingat dengan kurva survival Kaplan-Meier adalah pada dasarnya deskriptif dan tidak inferensial . Ini hanya fungsi dari data, dengan model yang sangat fleksibel yang ada di belakangnya. Ini adalah kekuatan karena ini berarti hampir tidak ada asumsi yang dapat dipatahkan, tetapi kelemahan karena sulit untuk menggeneralisasikannya, dan itu sesuai dengan "noise" serta "signal". Jika Anda ingin membuat kesimpulan, maka pada dasarnya Anda harus memperkenalkan sesuatu yang tidak diketahui yang ingin Anda ketahui.

Sekarang salah satu cara untuk membandingkan waktu kelangsungan hidup rata-rata adalah dengan membuat asumsi berikut:

  1. Saya memiliki perkiraan waktu kelangsungan hidup rata-rata untuk masing-masing negara , yang diberikan oleh kurva kaplan meier. itii
  2. Saya berharap waktu kelangsungan hidup rata-rata sebenarnya, harus sama dengan perkiraan ini. E ( T i | t i ) = t iTiE(Ti|ti)=ti
  3. Saya 100% yakin bahwa waktu kelangsungan hidup rata-rata adalah positif. Pr(Ti>0)=1

Sekarang cara "paling konservatif" untuk menggunakan asumsi-asumsi ini adalah prinsip entropi maksimum, sehingga Anda mendapatkan:

p(Ti|ti)=Kexp(λTi)

Di mana dan dipilih sedemikian rupa sehingga PDF dinormalisasi, dan nilai yang diharapkan adalah . Sekarang kita punya:λ t iKλti

= K [ - e x p ( - λ T i )

1=0p(Ti|ti)dTi=K0exp(λTi)dTi
E ( T i ) = 1
=K[exp(λTi)λ]Ti=0Ti==KλK=λ
dan sekarang kita memilikiE(Ti)=1λλ=ti1

Dan Anda memiliki satu set distribusi probabilitas untuk setiap negara.

p(Ti|ti)=1tiexp(Titi)(i=1,,N)

Yang memberikan distribusi probabilitas gabungan:

p(T1,T2,,TN|t1,t2,,tN)=i=1N1tiexp(Titi)

Sekarang sepertinya Anda ingin menguji hipotesis , di mana adalah rata-rata waktu bertahan hidup. Hipotesis alternatif yang parah untuk diuji adalah hipotesis "setiap negara adalah kepingan salju yang unik dan indah" karena ini adalah alternatif yang paling mungkin, dan dengan demikian merupakan informasi yang hilang dalam bergerak ke hipotesis yang lebih sederhana (tes "minimum"). Ukuran bukti terhadap hipotesis sederhana diberikan oleh rasio odds:¯ t = 1H0:T1=T2==TN=t¯HA:T1=t1,,TN=tNt¯=1Ni=1NtiHA:T1=t1,,TN=tN

O(HA|H0)=p(T1=t1,T2=t2,,TN=tN|t1,t2,,tN)p(T1=t¯,T2=t¯,,TN=t¯|t1,t2,,tN)
=[i=1N1ti]exp(i=1Ntiti)[i=1N1ti]exp(i=1Nt¯ti)=exp(N[t¯tharm1])

Dimana

tharm=[1Ni=1Nti1]1t¯

adalah rata-rata harmonik. Perhatikan bahwa peluang akan selalu mendukung kesesuaian sempurna, tetapi tidak banyak jika waktu kelangsungan hidup rata-rata cukup dekat. Selanjutnya, ini memberi Anda cara langsung untuk menyatakan bukti tes hipotesis khusus ini:

asumsi 1-3 memberikan peluang maksimum terhadap waktu kelangsungan hidup rata-rata yang sama di semua negara bagianO(HA|H0):1

Gabungkan ini dengan aturan keputusan, fungsi kerugian, fungsi utilitas, dll. Yang mengatakan betapa menguntungkannya menerima hipotesis yang lebih sederhana, dan Anda telah mendapatkan kesimpulan Anda!

Tidak ada batasan untuk jumlah hipotesis yang dapat Anda uji, dan memberikan peluang serupa untuk. Ubah saja untuk menetapkan sekumpulan "nilai sejati" yang mungkin berbeda. Anda dapat melakukan "pengujian signifikansi" dengan memilih hipotesis sebagai:H0

HS,i:Ti=ti,Tj=T=t¯(i)=1N1jitj

Jadi hipotesis ini secara verbal "menyatakan memiliki tingkat kelangsungan hidup rata-rata yang berbeda, tetapi semua keadaan lainnya adalah sama". Dan kemudian lakukan kembali perhitungan rasio odds yang saya lakukan di atas. Meskipun Anda harus berhati-hati tentang apa hipotesis alternatifnya. Untuk salah satu dari ini di bawah ini adalah "masuk akal" dalam arti bahwa mereka mungkin pertanyaan yang Anda tertarik untuk menjawab (dan mereka umumnya akan memiliki jawaban yang berbeda)i

  • saya didefinisikan di atas - berapa banyak lebih buruk adalah dibandingkan dengan sempurna? H S , iHAHS,i
  • saya didefinisikan di atas - berapa banyak lebih baik adalah dibandingkan dengan rata-rata fit? H S , sayaH0HS,i
  • a - berapa status "lebih berbeda" dibandingkan dengan keadaan ? k iHS,kki

Sekarang satu hal yang telah banyak ditinjau di sini adalah korelasi antar negara - struktur ini mengasumsikan bahwa mengetahui tingkat kelangsungan hidup rata-rata di satu negara bagian tidak memberi tahu Anda tentang tingkat kelangsungan hidup rata-rata di negara bagian lain. Meskipun ini mungkin tampak "buruk", tidak sulit untuk memperbaiki, dan perhitungan di atas adalah hasil awal yang baik yang mudah untuk dihitung.

Menambahkan koneksi antar negara akan mengubah model probabilitas, dan Anda akan secara efektif melihat beberapa "penyatuan" dari waktu kelangsungan hidup rata-rata. Salah satu cara untuk memasukkan korelasi ke dalam analisis adalah dengan memisahkan waktu survival yang sebenarnya menjadi dua komponen, "bagian umum" atau "tren" dan "bagian individu":

Ti=T+Ui

Dan kemudian membatasi bagian individu untuk memiliki nol rata-rata di atas semua unit dan varians tidak diketahui untuk diintegrasikan menggunakan sebelum menjelaskan apa yang Anda miliki tentang variabilitas individu, sebelum mengamati data (atau jeffrey sebelumnya jika Anda tidak tahu apa-apa, dan setengah cauchy jika jeffrey menyebabkan masalah). σUiσ

probabilityislogic
sumber
(+1) Sangat menarik. Posting Anda juga membuat saya memasukkan komentar dalam jawaban saya.
GaBorgulya
Mungkin saya telah melewatkannya, tetapi di mana didefinisikan? M1
kardinal
@ kardinal, permintaan maaf saya - salah ketik. akan dihapus
probabilityislogic
tidak perlu meminta maaf. Hanya tidak yakin apakah saya telah melewatinya saat membaca atau hanya kehilangan sesuatu yang jelas.
kardinal
4

Pikir saya hanya menambah topik ini bahwa Anda mungkin tertarik pada regresi kuantil dengan sensor. Bottai & Zhang 2010 mengusulkan "Regresi Laplace" yang dapat melakukan tugas ini, Anda dapat menemukan PDF di sini . Ada paket untuk Stata untuk ini, belum diterjemahkan ke R meskipun paket quantreg di R memiliki fungsi untuk regresi kuantil yang disensor, crq , yang bisa menjadi pilihan.

Saya pikir pendekatannya sangat menarik dan mungkin jauh lebih intuitif untuk pasien yang berisiko rasio. Mengetahui misalnya bahwa 50% pada obat bertahan 2 bulan lebih banyak daripada yang tidak menggunakan obat dan efek sampingnya memaksa Anda untuk tetap 1-2 bulan di rumah sakit mungkin membuat pilihan perawatan lebih mudah.

Max Gordon
sumber
Saya tidak tahu "Regresi Laplace", tetapi mengenai paragraf 2 Anda, saya ingin tahu apakah saya memahaminya dengan benar. Biasanya dalam analisis kelangsungan hidup (berpikir dalam hal waktu kegagalan dipercepat), kita akan mengatakan sesuatu seperti 'persentil ke-50 untuk kelompok obat datang 2 bulan kemudian dari 50% untuk kelompok kontrol'. Apakah itu yang Anda maksud, atau apakah output LR menghasilkan interpretasi yang berbeda?
gung - Reinstate Monica
@ungung: Saya pikir Anda benar dalam penafsiran Anda - mengubah teks, lebih baik? Saya belum pernah menggunakan model regresi meskipun saya baru saja menjumpai mereka dalam suatu kursus. Ini adalah alternatif yang menarik untuk model Cox biasa yang sering saya gunakan. Meskipun saya mungkin perlu menghabiskan lebih banyak waktu untuk mencerna ide itu, saya merasa mungkin lebih mudah bagi saya untuk menjelaskan kepada pasien saya karena saya sering menggunakan kurva KM ketika menjelaskan kepada pasien saya. HR menuntut Anda untuk benar-benar memahami perbedaan antara risiko relatif dan risiko absolut - sebuah konsep yang dapat membutuhkan waktu untuk dijelaskan ...
Max Gordon
Terima kasih @Misha atas tautannya. Penulis memiliki balasan di sini: onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abstract
Max Gordon
3

Pertama saya akan memvisualisasikan data: menghitung interval kepercayaan dan kesalahan standar untuk rata-rata selamat di masing-masing negara dan menunjukkan CI pada plot hutan, median dan UK mereka menggunakan plot corong.

"Rata-rata kelangsungan hidup rata-rata di seluruh negara" adalah jumlah yang diperkirakan dari data dan karenanya memiliki ketidakpastian sehingga Anda tidak dapat menganggapnya sebagai nilai referensi yang tajam selama pengujian signifikansi. Kesulitan lain dengan pendekatan mean-of-all adalah bahwa ketika Anda membandingkan median keadaan dengan itu Anda membandingkan median dengan kuantitas yang sudah termasuk kuantitas itu sebagai komponen. Jadi lebih mudah untuk membandingkan setiap negara untuk semua lainnya negara gabungan. Ini dapat dilakukan dengan melakukan tes peringkat log (atau alternatifnya) untuk setiap negara.
(Edit setelah membaca jawaban probabilityislogic: tes log rank membandingkan hidup dalam dua (atau lebih) kelompok, tetapi tidak sepenuhnya median yang dibandingkan. Jika Anda yakin itu adalah median yang ingin Anda bandingkan, Anda dapat mengandalkan persamaannya atau menggunakan resampling di sini juga)

Anda melabeli pertanyaan Anda [beberapa perbandingan], jadi saya berasumsi Anda juga ingin menyesuaikan (meningkatkan) nilai p Anda dengan cara bahwa jika Anda melihat setidaknya satu nilai p yang disesuaikan kurang dari 5% Anda dapat menyimpulkan bahwa “kelangsungan hidup rata-rata lintas negara adalah tidak sama ”pada tingkat signifikansi 5%. Anda dapat menggunakan metode generik dan terlalu konservatif seperti Bonferroni, tetapi skema koreksi yang optimal akan mempertimbangkan korelasi nilai p. Saya berasumsi bahwa Anda tidak ingin membangun pengetahuan apriori ke dalam skema koreksi, jadi saya akan membahas skema di mana penyesuaian mengalikan setiap nilai p dengan konstanta C yang sama.

Karena saya tidak tahu cara menurunkan rumus untuk mendapatkan pengganda C yang optimal, saya akan menggunakan resampling . Di bawah hipotesis nol bahwa karakteristik kelangsungan hidup adalah sama di semua negara bagian, sehingga Anda dapat permutasi label negara dari kasus kanker dan menghitung kembali median. Setelah mendapatkan banyak vektor yang di-resampling dari nilai-nilai p negara, saya secara numerik akan menemukan pengganda C di bawah ini yang mana kurang dari 95% vektor tidak menyertakan nilai p yang signifikan dan di atasnya lebih dari 95%. Sementara rentang tampak lebar, saya akan berulang kali meningkatkan jumlah sampel dengan urutan besarnya.

GaBorgulya
sumber
Saran yang bagus tentang memvisualisasikan data. (+1)
probabilityislogic
@probabilityislogic Terima kasih! Saya juga menerima kritik, terutama jika konstruktif.
GaBorgulya
satu-satunya kritik yang saya miliki adalah penggunaan nilai-p, tetapi ini lebih merupakan "chip di pundak saya" daripada apa pun dalam jawaban Anda - sepertinya jika Anda akan menggunakan nilai-p, maka apa yang Anda rekomendasikan itu baik. Saya hanya tidak berpikir menggunakan nilai-p itu bagus. lihat di sini untuk pertukaran saya dengan @eduardo di komentar tentang nilai-p.
probabilityislogic