Analisis Kelangsungan Hidup Bayesian: tolong, tuliskan saya sebelumnya untuk Kaplan Meier!

Pertimbangkan pengamatan yang disensor benar, dengan peristiwa pada waktu . Jumlah individu yang rentan pada waktu adalah , dan jumlah peristiwa pada saat adalah . $t_1, t_2, \dots$ $i$ $n_i$ $i$ $d_i$

Kaplan-Meier atau penaksir produk muncul secara alami sebagai MLE ketika fungsi bertahan hidup adalah fungsi langkah . Kemungkinannya adalah dan MLE adalah . $S(t) = \prod_{i : t_i < t} \alpha_i$

L (α) = \prod_{i} (1 - α_{i})^{d_{i}} α_{i}^{n_{i} - d_{i}}

$L(\alpha) = \prod_i (1-\alpha_i)^{d_i} \alpha_i^{n_i-d_i}$

{\hat{α}}_{i} = 1 - \frac{d_{i}}{n_{i}}

$\widehat\alpha_i = 1 - {d_i\over n_i}$

OK, sekarang anggap saya ingin pergi ke Bayesian. Saya perlu beberapa jenis `` alami '' sebelumnya yang akan saya kalikan , kan? $L(\alpha)$

Googling kata kunci yang jelas saya temukan bahwa proses Dirichlet adalah yang baik sebelumnya. Tetapi sejauh yang saya mengerti, itu juga merupakan poin diskontinuitas ? $t_i$

Ini tentunya sangat menarik dan saya ingin mempelajarinya, namun saya akan menerima sesuatu yang lebih sederhana. Saya mulai curiga itu tidak semudah yang saya pikirkan, dan sekarang saatnya untuk meminta saran Anda ...

Banyak terima kasih sebelumnya!

PS: Beberapa ketepatan pada apa yang saya harap saya tertarik (sesederhana mungkin) penjelasan tentang cara untuk menangani proses Dirichlet sebelumnya, namun saya pikir itu harus mungkin untuk menggunakan hanya sebelumnya pada - yaitu a sebelum pada fungsi langkah dengan diskontinuitas di . $\alpha_i$ $t_i$

Saya berpikir bahwa "bentuk global" dari fungsi langkah yang disampel sebelumnya tidak boleh bergantung pada - harus ada keluarga fungsi berkelanjutan yang didekati oleh fungsi langkah ini. $t_i$

Saya tidak tahu apakah harus independen (saya ragu). Jika ya, saya pikir ini menyiratkan bahwa sebelumnya tergantung pada , dan jika kita menyatakan distribusinya dengan maka produk dari variabel oleh variabel independen adalah variabel . Tampaknya di sini variabel log- dapat bermanfaat. $\alpha_i$ $\alpha_i$ $\Delta t_i = t_i - t_{i-1}$ $A(\Delta t)$ $A(\Delta_1)$ $A(\Delta_2)$ $A(\Delta_1+\Delta_2)$ $\Gamma$

Tapi di sini pada dasarnya aku terjebak. Saya tidak mengetik ini pada awalnya karena saya tidak ingin mengarahkan semua jawaban ke arah ini. Saya akan sangat menghargai jawaban dengan referensi bibliografi untuk membantu saya membenarkan pilihan akhir saya.

bayesian survival kaplan-meier Elvis
sumber

Dalam MLE, , apa itu ? Apakah itu salah cetak? Apakah maksud Anda ?

{\hat{a}}_{i} = 1 - \frac{d_{i}}{m_{i}}

$\hat{a}_{i} = 1 - \frac{d_{i}}{m_{i}}$

m_{i}

$m_{i}$

n_{i}

$n_{i}$

stachyra

Ya, itu , tentu saja. Aku benar.

n_{i}

$n_i$

Elvis

Dari slideseck ini , saya menemukan makalah ini , yang penulisnya juga memiliki pengantar ini . Jika itu tidak akan cukup sebagai sumber, referensi mereka sendiri kemungkinan akan cukup. Juga video ini tentang proses Dirichlet hierarki.

Sean Easter

Perhatikan bahwa saya memahami penokohan dasar DP tetapi saya tidak mengerti bagaimana menggunakannya, secara konkret, sebagai sebelumnya ... Juga, dengan ukuran dasar yang mana, dll.

Elvis

Apakah fungsi kemungkinan itu unik? Atau bisakah Anda mendapatkan KM dari kemungkinan lain?

probabilityislogic

Jawaban:

Perhatikan bahwa karena fungsi kemungkinan Anda adalah produk dari fungsi - data memberi tahu Anda bahwa tidak ada bukti untuk korelasi di antara mereka. Perhatikan bahwa variabel sudah scaling ke akun untuk waktu. Periode waktu yang lebih lama berarti lebih banyak kesempatan untuk acara, umumnya berarti lebih besar . $\alpha_i$ $d_i$ $d_i$

Cara paling dasar untuk "go Bayesian" di sini adalah dengan menggunakan prior uniform uniform independen . Perhatikan bahwa jadi ini adalah prior yang tepat - maka posterior juga tepat. Posterior adalah distribusi beta independen dengan parameter . Ini dapat dengan mudah disimulasikan untuk menghasilkan distribusi posterior kurva survival, menggunakan fungsi dalam R misalnya. $p (\alpha_i)=1$ $0 <\alpha_i <1$ $p (\alpha_i)\sim beta (n_i-d_i+1, d_i+1)$ rbeta ()

Saya pikir ini menjadi pertanyaan utama Anda tentang metode "sederhana". Di bawah ini adalah awal dari sebuah ide untuk membuat model yang lebih baik, yang mempertahankan bentuk KM fleksibel untuk fungsi bertahan hidup.

Saya pikir masalah utama dengan kurva KM adalah pada fungsi Survival, dan bukan pada sebelumnya. Misalnya, mengapa nilai harus sesuai dengan titik waktu yang diamati? Tidakkah lebih masuk akal untuk menempatkan mereka pada titik yang sesuai dengan waktu peristiwa yang bermakna berdasarkan proses yang sebenarnya? Jika titik waktu yang diamati terlalu jauh, kurva KM akan "terlalu halus". Jika terlalu dekat, kurva KM akan "terlalu kasar", dan berpotensi menunjukkan perubahan mendadak. Salah satu cara untuk menangani masalah "terlalu kasar" adalah dengan menempatkan sebelumnya yang berkorelasi pada sedemikian rupa sehingga . Efek dari ini sebelumnya akan mengecilkan parameter terdekat lebih dekat bersama-sama. Anda bisa menggunakan ini di "log-odds" $t_i$ $\alpha$ $\alpha_i\approx \alpha_{i+1}$ $\eta_i=\log\left (\frac {\alpha_i}{1-\alpha_i}\right)$ dan gunakan urutan acak kth sebelum . Untuk jalan acak urutan pertama, ini memberikan penalti pada formulir ke dalam log-likelihood. Perangkat lunak BayesX memiliki beberapa dokumentasi yang sangat bagus untuk jenis smoothing ini. Pada dasarnya memilih urutan k adalah seperti melakukan urutan k polinomial lokal. Jika Anda suka splines, pilih k = 3. Tentu saja, dengan menggunakan kotak waktu "baik" Anda akan memiliki titik waktu tanpa pengamatan. Namun, ini mempersulit fungsi kemungkinan Anda, karena hilang untuk beberapa . Misalnya jika dipecah menjadi 3 interval "lebih halus" $\eta$ $-\tau(\eta_i -\eta_{i-1})^2$ $n_i, d_i$ $i$ $( t_0,t_1)$ $(t_{00}, t_{01}, t_{02}, t_{10})$ maka Anda tidak tahu tetapi hanya dan . Jadi Anda mungkin perlu menambahkan "data yang hilang" ini dan menggunakan algoritma EM atau mungkin VB (asalkan Anda tidak menuruni jalan mcmc). $n_{02}, n_{10}, d_{01}, d_{02}, d_{10}$ $n_1=n_{01}$ $d_1=d_{01}+d_{02}+d_{10}$

Semoga ini memberi Anda awal.

probabilityislogic
sumber

Terima kasih atas pemikiran Anda (+1). Saya menggunakan seragam sebelumnya dan saya pikir saya akan menyimpannya ... Masalah saya yang sebenarnya lebih rumit dari yang terekspos di sini, saya memiliki korelasi antara . Ini "jalan acak sebelum" dalam menarik, saya akan lihat.

α_{i}

$\alpha_i$

Elvis

Untuk pembaca yang menghadapi masalah pergi ke Bayesian untuk memperkirakan fungsi bertahan hidup menerima sensor yang tepat, saya akan merekomendasikan pendekatan Bayesian nonparametrik yang dikembangkan oleh F Mangili, A Benavoli et al. Satu-satunya spesifikasi sebelumnya adalah parameter (presisi atau kekuatan). Ini menghindari kebutuhan untuk menentukan proses Dirichlet jika tidak ada informasi sebelumnya. Para penulis mengusulkan (1) - penaksir yang kuat dari kurva kelangsungan hidup dan interval kredibel untuk probabilitas kelangsungan hidup (2) - Sebuah tes dalam perbedaan kelangsungan hidup individu dari 2 populasi independen yang menyajikan berbagai manfaat selama tes peringkat log klasik atau tes nonparametrik lainnya. Lihat paket IDPsurvival dan referensi ini: Analisis kelangsungan hidup yang andal berdasarkan proses Dirichlet. F Mangili et al. Jurnal Biometrik. 2014.

Pascal
sumber