Teknik bootstrap yang tepat untuk data cluster?

16

Saya punya pertanyaan tentang teknik bootstrap yang tepat untuk digunakan dengan data di mana pengelompokan yang kuat hadir.

Saya telah ditugaskan untuk mengevaluasi model prediksi efek campuran multivariat pada data klaim asuransi dengan mencetak model baseline saat ini pada data klaim yang lebih baru, untuk menentukan seberapa baik model memprediksi episode perawatan mana yang mengandung frekuensi sesi tertinggi (atas Persentil ke-95). Sensitivitas, spesifisitas, dan nilai prediktif positif (PPV) akan digunakan untuk menilai efektivitas model.

Bootstrap tampaknya merupakan cara yang tepat untuk membangun interval kepercayaan untuk sensitivitas, spesifisitas, dan persentase PPV. Sayangnya, bootstrap naif tidak sesuai mengingat bahwa data klaim 1) berkorelasi dengan penyedia layanan, 2) dikelompokkan ke dalam episode perawatan dengan kunjungan yang lebih sering selama berbulan-bulan sebelumnya dalam episode perawatan (sehingga beberapa autokorelasi hadir). Apakah variasi pada teknik blok bootstap yang bergerak cocok di sini?

Atau mungkin prosedur bootstrap tiga langkah akan berhasil: 1) sampel dengan penggantian dari penyedia yang berbeda dalam data, kemudian 2) sampel dengan penggantian dari episode perawatan berbeda oleh penyedia yang dipilih, kemudian 3) sampel dengan penggantian dari klaim berbeda dalam setiap episode yang dipilih.

Terima kasih banyak atas sarannya!

RobertF
sumber

Jawaban:

14

Pendekatan kedua yang Anda sarankan tampaknya masuk akal, tetapi ternyata lebih baik hanya sampel dengan penggantian di tingkat tertinggi, dan tanpa penggantian di sublevel yang tersisa saat bootstrap data hierarkis. Ini ditunjukkan dari simulasi oleh Ren et al (2010): http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007) secara teoritis menyelidiki pendekatan berbeda untuk set data 2-level dan menemukan bahwa pengambilan sampel dengan penggantian di kedua level bukanlah ide yang brilian.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

Autokorelasi yang Anda sebutkan adalah masalah serius. Di sisi lain, memilih tanpa penggantian dari episode perawatan akan mempertahankan struktur autokorelasi jadi mungkin itu bukan masalah besar.

Pelle
sumber
Saya ingin tahu apakah solusi berikut ini sesuai:
Rafael
... maaf saya tidak bisa menyelesaikan komentar saya sebelumnya. Ini dia: ... Buat kode (id) yang memperhitungkan setiap tingkat pengelompokan (misalnya episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp) , dan kemudian gunakan GEE yang memungkinkan Anda menangani autokorelasi. Saya membaca di suatu tempat bahwa model GEE memberikan estimasi yang kuat bahkan di hadapan struktur cluster. Apakah solusi ini terdengar masuk akal?
Rafael