Saya memiliki data berikut, mewakili keadaan biner dari empat subjek pada empat kali, perhatikan bahwa hanya mungkin untuk setiap subjek untuk transisi tetapi tidak :
testdata <- data.frame(id = c(1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4),
day = c(1,1,1,1,8,8,8,8,16,16,16,16,24,24,24,24,32,32,32,32),
obs = c(0,0,0,0,0,1,0,0,0,1,1,0,0,1,1,1,1,1,1,1))
Saya dapat memodelkannya dengan regresi logistik:
testmodel <- glm(formula(obs~day, family=binomial), data=testdata)
> summary(testmodel)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.018890 0.148077 -0.128 0.899907
day 0.032030 0.007555 4.240 0.000493 ***
Pertama, bagaimana saya bisa menghitung tindakan berulang pada individu yang sama dalam model?
Kedua, bagaimana saya bisa memperkirakan, dengan ketidakpastian, hari di mana 1/2 dari subyek akan melakukan transisi dari ?
logistic
censoring
interval-censoring
David LeBauer
sumber
sumber
Jawaban:
Sebagaimana terbukti dalam komentar atas pertanyaan, data hanya terdiri dari empat pengamatan waktu untuk tunas meledak. (Ini akan menjadi kesalahan untuk menganalisis mereka seolah-olah mereka adalah 16 nilai independen.) Mereka terdiri dari interval waktu daripada waktu yang tepat:
Ada beberapa pendekatan yang bisa diambil. Yang menarik, sangat umum adalah mengambil interval ini pada kata-kata mereka: waktu sebenarnya tunas tunas bisa berupa apa pun dalam setiap interval. Dengan demikian, kita dituntun untuk mewakili "ketidakpastian" dalam dua bentuk terpisah: ketidakpastian sampel (kami memiliki sampel spesies yang mungkin representatif tahun ini) dan ketidakpastian pengamatan (dicerminkan oleh interval).
Ketidakpastian sampel ditangani dengan teknik statistik yang lazim: kami diminta untuk memperkirakan median dan kami dapat melakukannya dengan sejumlah cara, tergantung pada asumsi statistik, dan kami dapat memberikan interval kepercayaan untuk estimasi tersebut. Untuk kesederhanaan, misalkan waktu untuk tunas burst memiliki distribusi simetris. Karena (mungkin) non-negatif, ini menyiratkan ia memiliki varian dan juga menunjukkan rata - rata bahkan hanya empat pengamatan dapat didistribusikan secara normal. Selain itu, simetri menyiratkan bahwa kita dapat menggunakan mean sebagai pengganti untuk median (yang dicari dalam pertanyaan asli). Ini memberi kita akses ke metode interval standar, sederhana, taksiran dan kepercayaan diri.
Ketidakpastian pengamatan dapat ditangani dengan prinsip aritmatika interval (sering disebut "analisis batas probabilitas" ): melakukan semua perhitungan menggunakan semua kemungkinan konfigurasi data yang konsisten dengan pengamatan. Mari kita lihat bagaimana ini bekerja dalam kasus sederhana: memperkirakan rata-rata. Secara intuitif jelas bahwa rata-rata tidak boleh lebih kecil dari = , dicapai dengan menggunakan nilai terkecil di setiap interval, dan juga bahwa rata-rata tidak boleh lebih besar dari = . Kami menyimpulkan:( 1 + 8 + 16 + 24 ) / 4 10.25 (8+16+24+32) 18
Ini mewakili seluruh interval perkiraan: hasil yang sesuai dari perhitungan dengan input interval!
Sebuah atas (satu sisi) batas kepercayaan dari rata-rata empat nilai dihitung dari rata-rata mereka dan deviasi standar sampel dengan t Student distribusi sebagai1−α x=(x1,x2,x3,x4) m s
Berbeda dengan perhitungan rata-rata, tidak lagi umum bahwa interval ucl dibatasi oleh ucl tentang nilai-nilai pembatas. Memang, perhatikan bahwa ucl dari batas interval bawah, , sama dengan , sedangkan lebih kecil. Dengan memaksimalkan dan meminimalkan ucl di antara semua kemungkinan kombinasi nilai yang konsisten dengan pengamatan, kami menemukan (misalnya) bahwaucl((1,8,16,24),.025) 28.0758 ucl((8,11.676,16,24),.025)=25.8674
(Itu adalah interval angka yang mewakili ucl bernilai interval , bukan interval kepercayaan!) dan, untuk batas kepercayaan yang lebih rendah,
(Nilai-nilai ini telah dibulatkan ke luar. Angka adalah nilai negatif yang terpotong ke pada premis bahwa waktu tunas median tidak boleh negatif.)0 0
Dengan kata-kata, kita bisa mengatakan itu
Apa yang harus dibuat dari ini adalah masalah untuk perenungan individu dan tergantung pada aplikasi. Jika seseorang ingin yakin bahwa ledakan kuncup terjadi sebelum 40 hari, maka hasil ini memberikan kepuasan ( tergantung pada asumsi tentang distribusi kuncup dan independensi pengamatan ). Jika seseorang ingin memperkirakan ledakan tunas ke hari terdekat, maka jelas dibutuhkan lebih banyak data. Dalam keadaan lain, kesimpulan statistik ini dalam hal batas kepercayaan interval-dihargai mungkin frustasi. Misalnya, seberapa yakin kita bahwa ledakan kuncup terjadi pada 50% spesimen sebelum 30 hari? Sulit untuk mengatakannya, karena jawabannya adalah interval.
Ada cara lain untuk menangani masalah ini. Saya lebih suka menggunakan metode kemungkinan maksimum. (Untuk menerapkannya di sini, kita perlu tahu lebih banyak tentang bagaimana cutpoint interval didirikan. Itu penting apakah mereka ditentukan secara independen dari data atau tidak.) Pertanyaan ini tampaknya menjadi peluang yang baik untuk memperkenalkan metode berbasis interval karena mereka tampaknya tidak dikenal, meskipun dalam disiplin ilmu tertentu (penilaian risiko dan analisis algoritma) mereka telah dianjurkan oleh beberapa orang.
sumber
Berikut ini adalah pendekatan sederhana yang tidak menggunakan regresi logistik, tetapi berupaya untuk menggunakan saran di atas. Perhitungan statistik ringkasan mengasumsikan, mungkin secara naif, bahwa tanggal tersebut didistribusikan secara normal.
Mohon maafkan kode yang tidak berlaku
menulis fungsi untuk memperkirakan hari tunas untuk setiap individu: gunakan hari setengah tahun antara pengamatan terakhir 0 dan observasi pertama 1 untuk setiap individu.
Hitung statistik ringkasan
sumber
Kita tahu bahwa waktu transisi (dari status 0 ke status 1) subjek berada di antara dua batas: . Suatu perkiraan adalah mengasumsikan bahwa mungkin telah mengambil nilai dalam kisaran ini dengan probabilitas seragam . Resampling yang nilai-nilai kita bisa mendapatkan distribusi perkiraan :t1 24<t1<32 t1 ti median(ti)
id=1
Hasil (berulang):
Dengan demikian perkiraan dengan interval kepercayaan 95% dari median ini adalah 16 (5 - 28).
EDIT: Lihat komentar whuber tentang keterbatasan metode ini ketika jumlah pengamatan kecil (termasuk n = 4 itu sendiri).
sumber
Anda bisa menggunakan model hazard waktu diskrit yang sesuai dengan regresi logistik (menggunakan set data periode orang). Lihat Terapan Longitudinal Analisis Data - perangkat lunak dan Buku Bab 10-12.
Allison juga membahas
Kumpulan data Anda kecil.
sumber
Dengan asumsi bahwa Anda akan memiliki lebih banyak data dari struktur yang sama Anda akan dapat menggunakan metode aktuaria (tabel kehidupan) untuk memperkirakan kelangsungan hidup rata-rata.
sumber