Dalam pemrosesan citra medis, sebagian besar karya yang diterbitkan mencoba mengurangi false positive rate (FPR) sementara pada kenyataannya negatif palsu lebih berbahaya daripada positif palsu. Apa alasan di baliknya?
image-classification
image-recognition
Hunar A.Ahmed
sumber
sumber
Jawaban:
TL; DR: penyakit jarang terjadi, jadi jumlah absolut positif palsu jauh lebih banyak daripada negatif palsu.
Mari kita asumsikan bahwa sistem kami memiliki tingkat false positive dan false negative yang sama sebesar 1% (cukup bagus!), Dan kami mendeteksi adanya kanker baru tahun ini: 439.2 / 100.000 orang, atau 0,5% dari populasi. [ sumber ]
Jadi kita dapat melihat bahwa kita memiliki masalah: untuk semua orang yang menderita kanker, dua orang yang tidak memiliki kanker berakhir dengan operasi invasif, kemoterapi atau radioterapi.
Untuk setiap orang yang gagal mendeteksi kanker saat ini, dua ratus orang menerima pengobatan aktif yang tidak mereka butuhkan dan tidak mampu lakukan.
sumber
Anda tahu kisah tentang bocah lelaki yang menangis serigala, bukan?
Itu ide yang sama. Setelah beberapa classifier memberikan alarm palsu (seruan serigala) berkali-kali, staf medis akan mematikannya atau mengabaikannya.
"Oh, ini lagi! TIDAK!"
Setidaknya dengan kelompok bioteknologi yang telah bekerja sama dengan saya, penekanannya adalah pada pengurangan FPR secara khusus karena tujuannya adalah untuk membuat alat yang akan mengingatkan dokter akan potensi patologi, dan mereka telah memberi tahu kami bahwa mereka akan mengabaikan produk yang berteriak serigala. terlalu banyak.
Untuk produk yang membantu dokter, kita harus memikat psikologi mereka, meskipun ada argumen yang sah bahwa kehilangan serigala di pertanian lebih buruk daripada menangis serigala.
Sunting : Mengurangi positif palsu juga memiliki argumen yang sah. Jika komputer Anda terus menangis serigala sambil mendapatkan positif sesekali benar (dan menangkap sebagian besar positif sebenarnya), itu secara efektif mengatakan bahwa seseorang mungkin sakit. Mereka ada di rumah sakit. Dokter tahu bahwa pasien mungkin sakit.
sumber
Ringkasan: pertanyaannya mungkin * bukan apakah satu negatif palsu lebih buruk dari satu positif palsu, itu mungkin * lebih seperti apakah 500 positif palsu dapat diterima untuk turun ke satu negatif palsu.
* tergantung aplikasi
Biarkan saya sedikit memperluas jawaban @ Dragon:
Skrining berarti bahwa kami sedang mencari penyakit di antara populasi yang tampaknya sehat. Seperti yang dijelaskan @Dragon, untuk ini kita memerlukan FPR yang sangat rendah (atau Sensitivitas tinggi), jika tidak kita akan berakhir dengan lebih banyak positif palsu daripada positif sejati. Yaitu, Nilai Prediktif Positif (# benar-benar berpenyakit di antara semua yang didiagnosis positif) akan sangat rendah.
Sensitivitas (TPR) dan Spesifisitas (TNR) mudah diukur untuk sistem diagnostik: ambil sejumlah kasus yang benar-benar (tidak) sakit dan ukur fraksi yang terdeteksi dengan benar.
OTOH, baik dari sudut pandang dokter dan pasien, nilai - nilai prediktif lebih pada intinya. Mereka adalah "kebalikan" dari Sensitivitas dan spesifisitas dan memberi tahu Anda di antara semua prediksi positif (negatif), fraksi apa yang benar. Dengan kata lain, setelah tes mengatakan "penyakit" berapa probabilitas bahwa pasien benar-benar memiliki penyakit.
Seperti yang ditunjukkan @Dragon kepada Anda, insiden (atau prevalensi, tergantung pada tes apa yang sedang kita bicarakan) memainkan peran penting di sini. Insidensi rendah pada semua jenis skrining / aplikasi diagnosis kanker dini.
Untuk menggambarkan hal ini, skrining kanker ovarium untuk wanita pasca-menopause memiliki prevalensi 0,04% pada populasi umum dan 0,5% pada wanita berisiko tinggi dengan riwayat keluarga dan / atau mutasi gen penekan tumor BRCA1 dan 2 yang diketahui [Buchen, L. Kanker: Hilang sasaran. Alam, 2011, 471, 428-432]
Jadi pertanyaannya biasanya bukan apakah satu negatif palsu lebih buruk daripada satu positif palsu, tetapi bahkan 99% spesifisitas (1% FPR) dan sensitivitas 95% (angka yang diambil dari kertas yang dihubungkan di atas) kemudian berarti sekitar 500 positif palsu untuk setiap negatif palsu .
Sebagai catatan, juga perlu diingat bahwa diagnosis kanker dini itu sendiri bukanlah obat ajaib untuk kanker. Misalnya untuk mamografi skrining kanker payudara, hanya 3 - 13% dari pasien positif sejati yang benar -benar mendapat manfaat dari skrining .
Jadi kita juga perlu mengawasi jumlah positif palsu untuk setiap pasien yang mendapat manfaat . Misalnya untuk mamografi, bersama dengan angka-angka ini , perkiraan kasar yang kita miliki di suatu tempat di kisaran 400 - 1800 positif palsu per manfaat positif benar (kelompok 39-49 tahun).
Dengan ratusan positif palsu per negatif palsu (dan juga mungkin ratusan atau bahkan ribuan positif palsu per pasien yang mendapat manfaat dari skrining) situasinya tidak sejelas "salah satu kanker yang terlewatkan lebih buruk daripada satu diagnosis kanker positif palsu": positif palsu memiliki dampak, mulai dari psikologis dan psiko-somatik (mengkhawatirkan bahwa Anda memiliki kanker itu sendiri tidak sehat) hingga risiko fisik diagnosis lanjutan seperti biopsi (yang merupakan operasi kecil, dan dengan demikian dilengkapi dengan sendiri risiko).
Bahkan jika dampak dari satu false positive kecil, risiko yang sesuai dapat bertambah secara substansial jika ratusan positif palsu harus dipertimbangkan.
Bacaan yang disarankan: Gerd Gigerenzer: Risk Savvy: Cara Membuat Keputusan yang Baik (2014).
Namun, PPV dan NPV apa yang diperlukan untuk membuat tes diagnostik bermanfaat sangat tergantung pada aplikasi.
Seperti dijelaskan, dalam skrining untuk deteksi dini kanker fokus biasanya pada PPV, yaitu memastikan Anda tidak terlalu banyak membahayakan oleh negatif palsu: menemukan fraksi yang cukup besar (bahkan jika tidak semua) dari pasien kanker awal sudah merupakan perbaikan dari status quo tanpa penyaringan.
OTOH, tes HIV dalam donor darah berfokus pertama pada NPV (yaitu memastikan darah bebas HIV). Namun, pada langkah ke-2 (dan ke-3), hasil positif palsu kemudian dikurangi dengan menerapkan tes lebih lanjut sebelum mengkhawatirkan orang dengan hasil tes HIV positif (salah).
Terakhir namun tidak kalah pentingnya, ada juga aplikasi pengujian medis di mana insiden atau prevalensi tidak ekstrem seperti biasanya dalam skrining populasi yang tidak terlalu berisiko tinggi, misalnya beberapa diagnosis banding.
sumber
Dari perspektif pribadi, daripada pengalaman ilmu data, positif palsu memiliki dampak yang lebih tinggi pada kualitas hidup pasien daripada negatif palsu (setidaknya dalam sebagian besar aplikasi pemrosesan gambar medis. Kami tidak berbicara tentang hasil lab di sini) .
Mari kita lihat contoh konkret: skrining tumor .
Salah negatif berarti bahwa tumor tahap awal memiliki lebih banyak waktu untuk tumbuh dan berkembang menjadi kanker berbahaya. Secara keseluruhan proses ini membutuhkan waktu yang lama dan setiap penyaringan berikutnya memiliki peluang lebih tinggi untuk mendeteksinya, tetapi secara realistis kesehatan jangka panjang seorang pasien akan terganggu.
Selain itu, selalu ada manusia yang terlibat dalam diagnosis. Pemrosesan citra medis pada tahap teknologi saat ini dimaksudkan untuk menjadi bantuan bagi personel medis, bukan pengganti . Ini sering dimaksudkan untuk menunjukkan lesi atau perubahan pada jaringan yang begitu halus sehingga manusia mungkin mengabaikannya. Tidak ada kemungkinan dokter mengabaikan tumor stadium lanjut. Mereka tidak perlu pemrosesan gambar untuk itu.
Dalam hal prosedur medis, jika tumor tidak dapat dioperasi sebelum skrining berikutnya, tidak ada perbedaan besar antara pengangkatan tumor tahap awal atau tumor yang memiliki sedikit lebih banyak waktu untuk tumbuh. Jumlah jaringan yang diangkat lebih banyak, tetapi jenis operasinya sering sama. (Ini mengasumsikan bahwa pasien melakukan pemeriksaan kesehatan rutin.)
Sebuah false positive memiliki banyak implikasi yang tidak semuanya berhubungan langsung dengan penyakit:
Evaluasi risiko-manfaat ini menunjukkan bahwa negatif palsu termasuk risiko lebih kecil untuk pasien daripada positif palsu. Oleh karena itu prioritas mengurangi false positive pada umumnya lebih tinggi.
sumber
Waktu dokter sangat berharga
Dari dalam bidang kedokteran, dokter sering memiliki berbagai macam penyakit untuk mencoba mendeteksi dan mendiagnosis, dan ini adalah proses yang memakan waktu. Alat yang menyajikan false positive (bahkan jika pada tingkat rendah) kurang bermanfaat karena tidak mungkin mempercayai diagnosis itu, artinya setiap kali membuat diagnosis itu, ia perlu diperiksa. Anggap saja seperti WebMD perangkat lunak - semuanya adalah tanda kanker!
Alat yang menyajikan negatif palsu, tetapi selalu menunjukkan positif sebenarnya, jauh lebih bermanfaat, karena dokter tidak perlu membuang waktu untuk memeriksa atau menebak diagnosis. Jika itu menandai seseorang sebagai sakit dengan diagnosis tertentu, pekerjaan dilakukan. Jika tidak, orang-orang yang tidak disorot karena sakit akan tetap menerima tes tambahan.
Lebih baik memiliki alat yang dapat secara akurat mengidentifikasi bahkan satu sifat penyakit, daripada alat yang mungkin menipu banyak sifat.
sumber
False Positive Rate (FPR) juga dikenal sebagai false alarm rate (FAR); Tingkat Positif Palsu yang besar dapat menghasilkan kinerja yang buruk dari Sistem Deteksi Gambar Medis. Salah positif adalah di mana Anda menerima hasil positif untuk ujian, ketika Anda seharusnya menerima hasil negatif. Misalnya, tes kehamilan positif, padahal orang tersebut tidak hamil.
sumber
Kemungkinan besar, semua orang di utas ini sudah tahu bahwa ini adalah masalah inti dari analisis Bayesian. Semata-mata untuk kepentingan para peziarah masa depan yang mungkin menganggap positif palsu sebagai masalah radiologi, saya berharap komentar ini akan memberikan perspektif yang sedikit lebih umum.
sumber