Validasi internal melalui bootstrap: Kurva ROC apa yang akan ditampilkan?

8

Saya menggunakan pendekatan bootstrap untuk validasi internal model multivariat yang dibangun dengan regresi logistik standar ATAU jaring elastis.

Prosedur yang saya gunakan adalah sebagai berikut:

1) membangun model menggunakan seluruh dataset, mendapatkan nilai prediksi, dan menghitung AUC (AUC_ap, jelas)

2) menghasilkan 100-500 sampel bootstrap yang berasal dari dataset asli

3) untuk setiap sampel bootstrap, ikuti prosedur yang sama seperti pada # 1, dan dapatkan nilai prediksi dan auc untuk i) sampel bootstrap saat ini, dan ii) dataset asli

4) menghitung perbedaan antara i) dan ii) (di # 3) untuk masing-masing sampel bootstrap 100-500, dan ambil rata-rata -> "optimisme"

5) menghitung optimisme-koreksi AUC: AUC_ap - optimisme

Pertanyaan saya adalah APA kurva ROC yang terbaik untuk disajikan dalam makalah? Misalnya, ROC yang diturunkan pada langkah # 1 adalah satu pilihan, tetapi jelas optimis. Atau, saya telah mencoba untuk menghasilkan "ROC rata-rata" menggunakan paket R ROCR, berdasarkan kurva ROC yang diperoleh pada langkah # 3 (ii). Namun, AUC untuk [rata-rata kurva ROC ini] saya tidak percaya setara dengan nilai yang diperoleh pada langkah # 5.

Masukan apa pun sangat dihargai! -M

Mat
sumber

Jawaban:

5

Anda membuat asumsi bahwa kurva ROC informatif dan mengarah pada keputusan yang baik. Tidak ada yang benar. Saya belum melihat kurva ROC yang memberikan wawasan yang bermanfaat. Ini juga memiliki rasio tinta: informasi yang besar. Ituc-index (probabilitas konkordansi) adalah ukuran yang baik dari diskriminasi prediktif. Saya ingin lebih baik kalau bukan juga AUROC. Tidak perlu menyajikan kurva ROC.

Selain memiliki hasil informasi yang rendah, kurva ROC mengundang analis untuk mencari titik potong pada probabilitas yang diprediksi, yang merupakan bencana pengambilan keputusan.

Frank Harrell
sumber
0

Anda mengajukan pertanyaan yang sangat bagus yang sudah lama saya tanyakan. Mungkin itu tergantung pada hasil Anda untuk membuat keputusan bagaimana melaporkan. Untuk sebagian besar situasi, penulis ingin melaporkan AUC mentah / jelas (mis., Langkah # 1 dalam pertanyaan Anda) meskipun terlalu optimis atau tidak, dan kemudian melaporkan optimisme bootstrap yang mengoreksi AUC (mis. Langkah # 5). lihat ref: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0125026

Dalam beberapa situasi yang AUC tampaknya tidak terlalu optimis, penulis akan langsung melaporkan AUC yang diperbaiki.

Sedangkan untuk AUC pada langkah # 3 (ii), ini jarang dilaporkan dan Anda sebaiknya mengabaikannya.

Berguna
sumber
-2

Ada banyak detail yang hilang dari pertanyaan Anda - namun bagi saya tampaknya Anda tidak membicarakan soal set semua. Jika Anda bermaksud menunjukkan generalisasi model Anda (yang merupakan kasus penggunaan utama untuk kurva ROC), Anda diharapkan untuk menyajikan ROC yang berasal dari set tes , bukan validasi atau validasi internal. . atau ROC rata-rata yang berasal dari beberapa set tes. Karena itu penting Anda menemukan cara untuk menghasilkan set tes, dan mengambilnya dari sana.

Referensi yang bagus untuk mempelajari analisis ROC (dan cara membuat kurva ROC rata-rata) adalah:

Fawcett, T. (2006). Pengantar analisis ROC. Pattern Recognition Letters, 27 (8), 861–874. http://www.sciencedirect.com/science/article/pii/S016786550500303X

Pradeep Reddy Raamana
sumber
Membuat set uji dari aliran data yang sama masih validasi internal dan kurang dapat diandalkan daripada menggunakan bootstrap optimisme. Validasi sampel terpisah sangat tidak efisien dan seringkali menyesatkan. Saya membahas ini secara terperinci dalam Biostatistik untuk Penelitian Biomedis Bagian 10.11 tersedia dari biostat.mc.vanderbilt.edu/ClinStat
Frank Harrell