Saya punya pertanyaan tentang teknik bootstrap yang tepat untuk digunakan dengan data di mana pengelompokan yang kuat hadir.
Saya telah ditugaskan untuk mengevaluasi model prediksi efek campuran multivariat pada data klaim asuransi dengan mencetak model baseline saat ini pada data klaim yang lebih baru, untuk menentukan seberapa baik model memprediksi episode perawatan mana yang mengandung frekuensi sesi tertinggi (atas Persentil ke-95). Sensitivitas, spesifisitas, dan nilai prediktif positif (PPV) akan digunakan untuk menilai efektivitas model.
Bootstrap tampaknya merupakan cara yang tepat untuk membangun interval kepercayaan untuk sensitivitas, spesifisitas, dan persentase PPV. Sayangnya, bootstrap naif tidak sesuai mengingat bahwa data klaim 1) berkorelasi dengan penyedia layanan, 2) dikelompokkan ke dalam episode perawatan dengan kunjungan yang lebih sering selama berbulan-bulan sebelumnya dalam episode perawatan (sehingga beberapa autokorelasi hadir). Apakah variasi pada teknik blok bootstap yang bergerak cocok di sini?
Atau mungkin prosedur bootstrap tiga langkah akan berhasil: 1) sampel dengan penggantian dari penyedia yang berbeda dalam data, kemudian 2) sampel dengan penggantian dari episode perawatan berbeda oleh penyedia yang dipilih, kemudian 3) sampel dengan penggantian dari klaim berbeda dalam setiap episode yang dipilih.
Terima kasih banyak atas sarannya!