Apakah ada cabang statistik yang berkaitan dengan data yang nilai pastinya tidak diketahui , tetapi untuk setiap individu, kita tahu batas maksimum atau minimum pada nilai tersebut ?
Saya menduga bahwa masalah saya sebagian besar berasal dari kenyataan bahwa saya berjuang untuk mengartikulasikannya dalam istilah statistik, tetapi mudah-mudahan sebuah contoh akan membantu memperjelas:
Katakanlah ada dua populasi yang terhubung dan sehingga, pada titik tertentu, anggota dapat "bertransisi" ke , tetapi sebaliknya tidak mungkin. Waktu transisi adalah variabel, tetapi non-acak. Misalnya, bisa menjadi "individu tanpa keturunan" dan "individu dengan setidaknya satu keturunan". Saya tertarik pada usia perkembangan ini terjadi tetapi saya hanya memiliki data cross-sectional. Untuk setiap diberikan individu, saya bisa mengetahui apakah mereka milik atau . Saya juga tahu usia orang-orang ini. Untuk setiap individu dalam populasiB A B A B A B A B, Saya tahu bahwa usia saat transisi akan LEBIH BESAR dari usia mereka saat ini. Demikian juga, untuk anggota , saya tahu bahwa usia saat transisi adalah KURANG DARI usia mereka saat ini. Tapi saya tidak tahu nilai pastinya.
Katakanlah saya memiliki beberapa faktor lain yang ingin saya bandingkan dengan usia transisi. Sebagai contoh, saya ingin tahu apakah subspesies atau ukuran tubuh seseorang memengaruhi usia anak pertama. Saya pasti memiliki beberapa informasi berguna yang harus menginformasikan pertanyaan-pertanyaan itu: rata-rata, dari individu dalam , individu yang lebih tua akan memiliki transisi kemudian. Tetapi informasinya tidak sempurna , terutama untuk individu yang lebih muda. Dan sebaliknya untuk populasi .
Apakah ada metode yang telah ditetapkan untuk menangani data semacam ini ? Saya tidak perlu memerlukan metode lengkap bagaimana melakukan analisis seperti itu, hanya beberapa istilah pencarian atau sumber daya yang berguna untuk memulai saya di tempat yang tepat!
Peringatan: Saya membuat asumsi penyederhanaan bahwa transisi dari ke adalah instan. Saya juga siap untuk berasumsi bahwa sebagian besar individu pada suatu titik akan maju ke , dengan asumsi mereka hidup cukup lama. Dan saya menyadari bahwa data longitutinal akan sangat membantu, tetapi anggap tidak tersedia dalam kasus ini.
Permintaan maaf jika ini adalah duplikat, seperti yang saya katakan, bagian dari masalah saya adalah bahwa saya tidak tahu apa yang harus saya cari. Untuk alasan yang sama, tambahkan tag lain jika sesuai.
Sampel dataset: SSP menunjukkan salah satu dari dua subspesies, atau . Keturunan menunjukkan apakah tidak ada keturunan ( ) atau setidaknya satu keturunan ( )
age ssp offsp
21 Y A
20 Y B
26 X B
33 X B
33 X A
24 X B
34 Y B
22 Y B
10 Y B
20 Y A
44 X B
18 Y A
11 Y B
27 X A
31 X B
14 Y B
41 X B
15 Y A
33 X B
24 X B
11 Y A
28 X A
22 X B
16 Y A
16 Y B
24 Y B
20 Y B
18 X B
21 Y B
16 Y B
24 Y A
39 X B
13 Y A
10 Y B
18 Y A
16 Y A
21 X A
26 X B
11 Y A
40 X B
8 Y A
41 X B
29 X B
53 X B
34 X B
34 X B
15 Y A
40 X B
30 X A
40 X B
Sunting: contoh dataset berubah karena tidak terlalu representatif
sumber
Jawaban:
Ini disebut sebagai data status saat ini . Anda mendapatkan satu pandangan penampang data, dan mengenai responsnya, yang Anda tahu adalah bahwa pada usia yang diamati dari setiap subjek, peristiwa (dalam kasus Anda: transisi dari A ke B) telah terjadi atau tidak. Ini adalah kasus khusus sensor interval .
Untuk mendefinisikannya secara formal, biarkan menjadi waktu kejadian sebenarnya (tidak teramati) untuk subjek . Biarkan waktu inspeksi untuk subjek (dalam kasus Anda: usia saat inspeksi). Jika , data disensor dengan benar . Jika tidak, data akan disensor . Kami menarik dalam pemodelan distribusi T . Untuk model regresi, kita tertarik dalam pemodelan bagaimana distribusi yang berubah dengan satu set kovariat X .Ti i Ci i Ci<Ti T X
Untuk menganalisis ini menggunakan metode sensor interval, Anda ingin memasukkan data Anda ke dalam format sensor interval umum. Yaitu, untuk setiap subjek, kami memiliki interval , yang mewakili interval di mana kami tahu bahwa T i akan terkandung. Jadi jika subjek saya disensor dengan benar pada waktu inspeksi c i , kami akan menulis ( c i , ∞ ) . Jika dibiarkan disensor di c i , kami akan menyatakannya sebagai ( 0 , c i ) .(li,ri) Ti i ci (ci,∞) ci (0,ci)
Steker Shameless: jika Anda ingin menggunakan model regresi untuk menganalisis data Anda, ini dapat dilakukan di R menggunakan
icenReg
(saya penulis). Bahkan, dalam pertanyaan serupa tentang data status saat ini , OP memasang demo bagus menggunakan icenReg . Dia mulai dengan menunjukkan bahwa mengabaikan bagian sensor dan menggunakan regresi logistik mengarah pada bias (catatan penting: dia merujuk menggunakan regresi logistik tanpa menyesuaikan usia . Lebih lanjut tentang ini nanti.)Paket hebat lainnya adalah
interval
, yang berisi uji statistik log-rank, di antara alat-alat lainnya.EDIT:
@ EDM disarankan menggunakan regresi logistik untuk menjawab masalah. Saya tidak adil menolak ini, mengatakan bahwa Anda harus khawatir tentang bentuk waktu fungsional. Sementara saya berdiri di belakang pernyataan bahwa Anda harus khawatir tentang bentuk waktu fungsional, saya menyadari bahwa ada transformasi yang sangat masuk akal yang mengarah ke penduga parametrik yang masuk akal.
Secara khusus, jika kita menggunakan log (waktu) sebagai kovariat dalam model kita dengan regresi logistik, kita berakhir dengan model odds proporsional dengan garis dasar log-logistik.
Untuk melihat ini, pertama pertimbangkan bahwa model regresi odds proporsional didefinisikan sebagai
Sekarang pertimbangkan regresi logistik dengan log (Waktu) sebagai kovariat. Kami kemudian punya
Dengan sedikit kerja, Anda dapat melihat ini sebagai CDF dari model log-logistik (dengan transformasi parameter non-linear).
R menunjukkan bahwa kecocokannya setara:
Perhatikan bahwa efeknya
grp
sama di setiap model, dan kemungkinan log-akhir hanya berbeda dengan kesalahan numerik. Parameter dasar (yaitu intersep dan log_age untuk regresi logistik, alfa dan beta untuk model interval yang disensor) adalah parameterisasi yang berbeda sehingga tidak sama.Jadi begitulah: menggunakan regresi logistik setara dengan menyesuaikan peluang proporsional dengan distribusi baseline log-logistik. Jika Anda setuju dengan model parametrik ini, regresi logistik cukup masuk akal. Saya mengingatkan bahwa dengan data interval sensor, model semi-parametrik biasanya disukai karena kesulitan menilai kecocokan model, tetapi jika saya benar-benar berpikir tidak ada tempat untuk model parametrik penuh saya tidak akan memasukkannya
icenReg
.sumber
ic_sp
dalamicenReg
) dan tidak khawatir sama sekali tentang itu. Selain itu, melihat kurva survival untuk kedua kelompok menjawab pertanyaan Anda dengan benar. Mencoba menciptakan ini dari pas logistik dapat dilakukan, tetapi sekali lagi, lebih banyak pekerjaan daripada menggunakan model bertahan hidup.sumber
Masalah ini sepertinya ditangani dengan regresi logistik.
Anda memiliki dua status, A dan B, dan ingin menguji probabilitas apakah seseorang tertentu telah beralih secara tidak dapat diubah dari keadaan A ke keadaan B. Satu variabel prediktor fundamental adalah usia pada saat pengamatan. Faktor atau faktor lain yang menarik adalah variabel prediktor tambahan.
Model logistik Anda kemudian akan menggunakan pengamatan aktual dari keadaan A / B, usia, dan faktor-faktor lain untuk memperkirakan kemungkinan berada di negara B sebagai fungsi dari para prediktor tersebut. Usia di mana probabilitas melewati 0,5 dapat digunakan sebagai perkiraan waktu transisi, dan Anda akan kemudian memeriksa pengaruh faktor-faktor lain pada waktu transisi yang diprediksi.
Ditambahkan dalam menanggapi diskusi:
Seperti halnya model linear, Anda perlu memastikan bahwa prediktor Anda ditransformasikan sedemikian rupa sehingga mereka menghasilkan hubungan linier dengan variabel hasil, dalam hal ini log-odds dari probabilitas pindah ke negara B. Itu belum tentu masalah sepele. Jawaban oleh @CliffAB menunjukkan bagaimana transformasi log dari variabel umur dapat digunakan.
sumber