Saya mencoba untuk melakukan analisis kelangsungan hidup waktu diskrit menggunakan model regresi logistik, dan saya tidak yakin saya benar-benar memahami prosesnya. Saya akan sangat menghargai bantuan dengan beberapa pertanyaan dasar.
Ini adalah pengaturannya:
Saya melihat keanggotaan dalam grup dalam rentang waktu lima tahun. Setiap anggota memiliki catatan keanggotaan bulanan untuk setiap bulan bahwa anggota tersebut ada dalam grup. Saya mempertimbangkan semua anggota yang keanggotaannya dimulai selama jendela lima tahun (untuk menghindari masalah "sensor kiri" dengan anggota yang bergabung sebelumnya). Setiap catatan akan diindeks berdasarkan waktu, dengan waktu satu bulan sebagai anggota bergabung. Jadi, seorang anggota yang tinggal selama dua setengah tahun akan memiliki catatan bulanan tiga puluh, jumlahnya dari satu hingga tiga puluh. Setiap catatan juga akan diberikan variabel biner, yang akan memiliki nilai satu untuk bulan terakhir keanggotaan, dan nol sebaliknya; nilai satu untuk variabel biner menandai peristiwa bahwa anggota telah meninggalkan grup. Untuk setiap anggota yang keanggotaannya berlanjut melampaui jendela analisis lima tahun,
Jadi, model regresi logistik dibangun untuk memprediksi nilai-nilai variabel acara biner. Sejauh ini baik. Salah satu cara khas untuk mengevaluasi model prediksi biner adalah dengan mengukur lift pada sampel penahan. Untuk model regresi logistik yang telah saya bangun untuk memprediksi acara berakhirnya keanggotaan, saya telah menghitung peningkatan pada set data ketidaksepakatan dengan rasio lima banding satu kejadian-kejadian terhadap kejadian. Saya peringkat nilai-nilai yang diprediksi ke dalam desil. Dekil dengan nilai prediksi tertinggi berisi tujuh puluh persen, peningkatan lebih dari empat. Gabungan dua desil pertama mengandung enam puluh lima persen dari semua desas-desus. Dalam konteks tertentu ini akan dianggap sebagai model prediksi yang cukup baik, tetapi saya bertanya-tanya apakah itu cukup baik untuk melakukan analisis kelangsungan hidup.
Misalkan adalah fungsi bahaya untuk individu dalam bulan , dan misalkan adalah probabilitas bahwa individu bertahan hingga bulan .
Inilah pertanyaan mendasar saya:
Apakah fungsi bahaya diskrit, , probabilitas bersyarat untuk tidak dapat bertahan hidup (meninggalkan grup) di setiap bulan?
Apakah nilai yang diprediksi dari estimasi model regresi logistik dari fungsi bahaya? (yaitu, apakah sama dengan nilai model yang diprediksi untuk masing-masing j dalam bulan k , atau apakah sesuatu yang lebih perlu dilakukan untuk mendapatkan perkiraan fungsi bahaya?)
Apakah probabilitas bertahan hidup hingga bulan q untuk individu sama dengan produk satu dikurangi fungsi bahaya dari bulan satu hingga q , yaitu, apakah S [ j , q ] = ( 1 - h [ j , 1 ] ) ⋅ ( 1 - h [ j , 2 ] ) ⋅ ... ⋅ ( 1 - h [ j , q ] ) ?
Apakah nilai rata-rata atas semua individu j untuk setiap kali k merupakan estimasi yang masuk akal dari keseluruhan populasi berarti probabilitas kelangsungan hidup?
Haruskah sebidang populasi keseluruhan berarti probabilitas kelangsungan hidup per bulan menyerupai grafik Kaplan-Meier bulanan?
Jika jawaban untuk semua pertanyaan ini adalah tidak, maka saya memiliki kesalahpahaman yang serius, dan benar-benar dapat menggunakan bantuan / penjelasan. Juga, apakah ada aturan praktis tentang seberapa baik model prediksi biner perlu untuk menghasilkan profil bertahan hidup yang akurat?
sumber
Jawaban:
AsumsikanK adalah nilai terbesar dari k (yaitu bulan / periode terbesar yang diamati dalam data Anda).
Berikut adalah fungsi bahaya dengan parametriisasi waktu sepenuhnya diskrit, dan dengan vektor parameterB vektor variabel pengkondisian X : hj,k=eαk+BX1+eαk+BX . Fungsi bahaya juga dapat dibangun di sekitar parameterisasi waktu alternatif (misalnya menyertakank atau fungsi sebagai variabel dalam model), atau di sekitar gabungan keduanya.
The dasar fungsi logit hazard menggambarkan probabilitas acara terjadinya dalam waktuk , kondisional karena telah selamat ke waktu k . Menambahkan prediktor ( X ) ke model lebih lanjut membatasi persyaratan ini.
Tidak, perkiraan regresi logistikα^1 , … , α K , B ) adalah tidak fungsi bahaya sendiri. Model regresi logistik: logit ( h j , k ) = α k + B X , dan Anda perlu melakukan transformasi anti-logit di (1) di atas untuk mendapatkan perkiraan bahaya.α^K B^ (hj,k)=αk+BX
Iya. Meskipun saya akan notate itu S j , q = Π q i = 1 ( 1 - h j , i ) . Fungsi survival adalah probabilitas tidak mengalami peristiwa saat k , dan tentu saja juga dapat dikondisikan pada X .S^j,q=∏qi=1(1−hj,i) k X
Ini pertanyaan yang halus, tidak yakin saya punya jawaban. Tapi aku punya pertanyaan. :) Ukuran sampel pada setiap periode waktu menurun dari waktu ke waktu karena sensor-kanan dan karena peristiwa: apakah Anda memperhitungkan ini dalam perhitungan waktu survival rata-rata Anda? Bagaimana? Apa yang Anda maksud dengan "populasi?" Populasi apa yang direkrut individu untuk studi Anda generalisasi? Atau maksud Anda beberapa konsep statistik "populasi super"? Inferensi adalah besar tantangan dalam model ini, karena kami memperkirakanβ dan kesalahan standar mereka, tetapi perlu melakukan delta-metode back-membalik untuk mendapatkan kesalahan standar untuk h j , k , dan (dari pekerjaan saya sendiri) berasal standar yang berlaku kesalahan untuk S jh^j,k S^j,k bekerja hanya di atas kertas (saya tidak bisa mendapatkan pertanggungan CI yang benar untuk S j , k dalam model kondisional).S^j,k
Anda dapat menggunakan grafik fungsi-fungsi seperti Kaplan-Meier, dan Anda juga dapat menggunakan grafik garis lurus (yaitu menghubungkan titik-titik antara periode waktu dengan garis). Anda harus menggunakan kasus terakhir hanya ketika konsep "waktu diskrit" itu sendiri mengakui kemungkinan periode dibagi. Anda juga dapat merencanakan / berkomunikasi perkiraan kejadian kumulatif (yang1−Sj,k . ... setidaknya epidemiologi sering akan menentukan "kejadian kumulatif" dengan cara ini, istilah ini digunakan secara berbeda dalam bersaing risiko model Istilah serapan mungkin juga digunakan di sini.).
sumber