Pertanyaan : Saya telah memasang model probabilistik (jaringan bayesian) untuk memodelkan variabel hasil biner. Saya ingin membuat plot kalibrasi resolusi tinggi (misalnya spline) dikoreksi karena overfitting dengan bootstrap. Apakah ada prosedur standar untuk menghitung kurva seperti itu?
Pertimbangan : Saya bisa melakukan ini dengan mudah dengan train / test split, tapi saya lebih suka tidak membuang data apa pun karena saya memiliki kurang dari 20.000 sampel. Jadi saya secara alami berpikir tentang bootstrap. Saya tahu bahwa salah satu fungsi tersebut (kalibrasi) diimplementasikan dalam paket rms milik Frank Harrell, tetapi sayangnya model yang saya gunakan tidak didukung oleh paket tersebut.
Pertanyaan bonus : apakah mungkin untuk mengkalibrasi ulang model yang salah perhitungan dengan bootstrap? Alasan saya bertanya ini adalah karena saya mencoba untuk mengkalibrasi ulang model oleh
- pisahkan data dalam kereta / tes
- model pas untuk melatih set
- mengkalibrasi ulang model untuk melatih set (dengan spline kubik)
- mengevaluasi kalibrasi pada set tes
Model-model yang dikalibrasi ulang dengan cara di atas dikalibrasi sempurna pada set kereta tetapi tidak begitu banyak pada set tes, yang mungkin menunjukkan overfitting ringan. Saya juga mencoba membelah set tes lebih lanjut, mengkalibrasi pada satu split dan mengevaluasi kalibrasi pada split kedua. Saya mendapat hasil yang lebih baik (masih belum dikalibrasi dengan sempurna), tetapi set menjadi sangat kecil (~ 1000 sampel) dan dengan demikian kalibrasi tidak dapat diandalkan
sumber
reticulate
. Saya bisa menerapkan prosedur sendiri jika saya mengetahuinya, tetapi saya belum menemukannya di mana pun .. Saya kira saya hanya berharap bahwa prof Harrell akan melihat pertanyaan ini: DJawaban:
Setelah berdiskusi dengan Prof. Frank Harrell melalui email, saya menyusun prosedur berikut untuk memperkirakan kurva kalibrasi yang dikoreksi optimisme, sebagian berdasarkan pada Tutorialnya dalam Biostatistik (STATISTIK DALAM OBAT, VOL. 15,361-387 (1996)):
Catatan penting : Prosedur di atas terinspirasi oleh pekerjaan Harrell dan diskusi saya dengannya, tetapi semua kesalahan adalah milik saya sendiri.
sumber