Tepatnya bagaimana cara R's coxph () menangani tindakan berulang?

10

Konteks

Saya mencoba memahami bagaimana R's coxph () menerima dan menangani entri berulang untuk subjek (atau pasien / pelanggan jika Anda suka). Beberapa menyebutnya format Panjang ini, yang lain menyebutnya 'tindakan berulang'.

Lihat misalnya kumpulan data yang menyertakan kolom ID di bagian Jawaban di:

Paket terbaik untuk model Cox dengan kovariat yang bervariasi waktu

Juga asumsikan kovariat berbeda-beda sepanjang waktu dan hanya ada satu variabel sensor (yaitu peristiwa), yang merupakan biner.

Pertanyaan

1) Dalam jawaban tautan di atas, jika ID tidak diberikan sebagai parameter dalam panggilan ke coxph () haruskah hasilnya sama dengan memasukkan cluster (ID) sebagai parameter dalam coxph ()?

Saya mencoba mencari dokumentasi, tetapi yang berikut ini tampaknya tidak dengan jelas membahas (1): https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

2) Jika jawaban untuk (1) adalah 'tidak', lalu (secara matematis) mengapa? Tampaknya cluster () dalam coxph () mencari korelasi antara subjek sesuai sub 'cluster' pada pg. 20 di

https://cran.r-project.org/web/packages/survival/survival.pdf

3) Pertanyaan samar: bagaimana coxph () dengan tindakan berulang dibandingkan dengan metode regresi frailtypack R?

Addenda

Petunjuk berikut dalam menggunakan cluster (ID):

Apakah ada versi berulang yang menyadari versi uji logrank?

seperti halnya:

https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

Pendekatan GEE: tambahkan "+ cluster (subjek)" ke pernyataan model dalam coxph Pendekatan model campuran: Tambahkan "+ (1 | subjek)" ke statment model dalam coxme.

Terima kasih sebelumnya!

Quetzalcoatl
sumber

Jawaban:

11
  1. Termasuk cluster(ID)tidak mengubah estimasi titik parameter. Namun hal itu mengubah cara kesalahan standar dihitung.

    Rincian lebih lanjut dapat ditemukan dalam buku Therneau & Grambsch's Extending the Cox Model , bab 8.2. Perhatikan bahwa dalam contoh mereka, mereka digunakan method = "breslow"sebagai koreksi untuk ikatan, tetapi juga dengan default ( method = "efron") perhitungan yang sama untuk se's akan digunakan, dan muncul dalam ringkasan sebagai "robust se".

  2. Jika cluster (ID) digunakan, perkiraan "kuat" dari kesalahan standar dikenakan dan kemungkinan ketergantungan antar subjek diukur (misalnya dengan kesalahan standar dan skor varian). Di lain pihak, tidak menggunakan cluster (ID), memaksakan independensi pada setiap pengamatan dan lebih banyak "informasi" diasumsikan dalam data. Dalam istilah yang lebih teknis, fungsi skor untuk parameter tidak berubah, tetapi varian skor ini tidak. Argumen yang lebih intuitif adalah bahwa 100 pengamatan pada 100 individu memberikan lebih banyak informasi daripada 100 pengamatan pada 10 individu (atau kelompok).

  3. Jelas tidak jelas. Singkatnya, +frailty(ID)dalam coxph()model kecocokan standar dengan efek acak gamma atau log-normal dan dengan bahaya / intensitas baseline non-parametrik. frailtypackmenggunakan garis dasar parametrik (juga versi fleksibel dengan splines atau fungsi konstan sesekali) dan juga cocok dengan model yang lebih rumit, seperti kelemahan berkorelasi, kelemahan bersarang, dll.

Akhirnya, +cluster()agak dalam semangat GEE, di mana Anda mengambil persamaan skor dari kemungkinan dengan pengamatan independen, dan menggunakan estimator "kuat" yang berbeda untuk kesalahan standar.

sunting: Terima kasih @Ivan untuk saran-saran mengenai kejelasan posting.

Theodor
sumber
Terima kasih. Mengenai (2): dapat "Ini karena jika Anda (salah) menganggap ..." digantikan oleh "Jika Anda tidak menggunakan klaster (ID) dalam panggilan ke coxph (), maka Anda salah menganggap ...."
Quetzalcoatl
Maksud saya: jika pengamatan terkelompok, maka observasi itu mungkin independen atau tidak. Dengan asumsi bahwa mereka independen (yaitu tidak menggunakan cluster (id)) hampir pasti salah dalam kasus ini, tetapi tidak ada ide untuk mengetahui itu sebelumnya
Theodor
(2) dapat diulangi sebagai: jika cluster (ID) digunakan, perkiraan "kuat" dari kesalahan standar dikenakan dan kemungkinan ketergantungan antara subyek diukur (misalnya dengan kesalahan standar dan skor varian). Di lain pihak, tidak menggunakan cluster (ID), memaksakan independensi pada setiap pengamatan dan lebih banyak "informasi" diasumsikan dalam data.
Quetzalcoatl
Tautan referensi yang Anda berikan dalam (1) seharusnya: springer.com/us/book/9780387987842 (dengan asumsi Anda mengutip buku Therneau dan Grambsch)
Quetzalcoatl
Juga perhatikan: seperti yang dijelaskan dalam buku Therneau dan Grambsch, alasan jawaban dalam (1) di atas benar karena coxph () menggunakan metode Breslow sebagai standar untuk ikatan.
Quetzalcoatl
1

Berikut ini jawaban dari survivalsketsa paket yang menurut saya sangat membantu - itu ditautkan dalam jawaban pertama ke pertanyaan pertama yang Anda tautkan:

Paket terbaik untuk model Cox dengan kovariat yang bervariasi waktu

Mereka merujuk pada pengaturan data formulir panjang, atau data dengan entri berulang untuk subjek.

Satu pertanyaan umum dengan pengaturan data ini adalah apakah kita perlu khawatir tentang data yang berkorelasi, karena subjek yang diberikan memiliki beberapa pengamatan. Jawabannya adalah tidak, kami tidak. Alasannya adalah bahwa representasi ini hanyalah trik pemrograman. Persamaan kemungkinan pada setiap titik waktu hanya menggunakan satu salinan dari subjek apa pun, program memilih baris data yang benar pada setiap waktu. Ada dua pengecualian untuk aturan ini:

  • Ketika subjek memiliki beberapa peristiwa, maka baris untuk peristiwa tersebut berkorelasi dalam subjek dan varians kluster diperlukan.
  • Ketika subjek muncul dalam interval yang tumpang tindih. Namun ini hampir selalu merupakan kesalahan data, karena itu sesuai dengan dua salinan subjek yang hadir di strata yang sama pada saat yang sama, misalnya, dia bisa bertemu dirinya sendiri di sebuah pesta.

Contoh yang mereka berikan adalah

fit <- coxph(Surv(time1, time2, status) ~ age + creatinine, data=mydata)

menyarankan bahwa jika Anda memberikan dua kali (awal dan akhir periode) untuk Survbukannya satu, coxph()akan mencari tahu sisanya.

BLT
sumber
Kecuali saya salah paham tentang sesuatu, saya pikir komentar ini menyesatkan? Kita perlu khawatir tentang data yang berkorelasi jika kita ingin mendapatkan estimasi varians yang akurat, maka mengapa menambahkan istilah + cluster (ID) mengubah istilah estimasi varians?
AP30