Apakah Statistics.com menerbitkan jawaban yang salah?

28

Statistics.com menerbitkan masalah minggu ini: Tingkat penipuan asuransi perumahan adalah 10% (satu dari sepuluh klaim adalah penipuan). Seorang konsultan telah mengusulkan sistem pembelajaran mesin untuk meninjau klaim dan mengklasifikasikannya sebagai penipuan atau tidak-penipuan. Sistem ini 90% efektif dalam mendeteksi klaim penipuan, tetapi hanya 80% efektif dalam mengklasifikasikan dengan benar klaim non-penipuan (salah mengartikan satu dari lima sebagai "penipuan"). Jika sistem mengklasifikasikan klaim sebagai penipuan, berapakah probabilitas bahwa itu benar-benar palsu?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Rekan saya dan saya berdua menghasilkan jawaban yang sama secara independen dan tidak cocok dengan solusi yang dipublikasikan.

Solusi kami:

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

Solusi mereka:

Ini adalah masalah dalam probabilitas bersyarat. (Ini juga masalah Bayesian, tetapi menerapkan formula dalam Bayes Rule hanya membantu mengaburkan apa yang sedang terjadi.) Pertimbangkan 100 klaim. 10 akan menjadi penipuan, dan sistem akan dengan benar memberi label 9 dari mereka sebagai "penipuan." 90 klaim akan baik-baik saja, tetapi sistem akan secara salah mengklasifikasikan 72 (80%) sebagai "penipuan." sebagai penipu, tetapi hanya 9 dari mereka, 11%, yang sebenarnya penipu.

Siapa yang benar

ChrisG
sumber
4
Sepertinya mereka mengoreksi solusi di situs web mereka agar sesuai dengan apa yang Anda hitung
tidak
2
@ tidak, diam-diam mengoreksi jawabannya. sneaky
Aksakal
Trivia: dalam pengambilan keputusan perilaku, masalah ini sering disebut sebagai "masalah mammogram", karena presentasi biasanya adalah tentang kemungkinan pasien kanker diberikan mammogram positif.
Kodiologis
"Kabar baiknya adalah, sistem kami mengklasifikasikan 90% penipuan sebagai penipuan. Berita buruknya adalah, ia mengklasifikasikan 80% non-penipuan sebagai penipuan." Perhatikan bahwa 11% yang mereka hitung hanya sedikit lebih tinggi dari tarif dasar 10%. Model pembelajaran mesin di mana tingkat penipuan dalam kasus-kasus yang ditandai hanya 10% lebih dari tingkat dasar cukup mengerikan.
Akumulasi
Ini dikenal sebagai paradoks positif palsu
BlueRaja - Danny Pflughoeft

Jawaban:

41

Saya percaya bahwa Anda dan kolega Anda benar. Statistics.com memiliki garis pemikiran yang benar, tetapi membuat kesalahan sederhana. Dari 90 klaim "OK", kami berharap 20% dari mereka secara tidak benar diklasifikasikan sebagai penipuan, bukan 80%. 20% dari 90 adalah 18, mengarah ke 9 klaim yang diidentifikasi dengan benar dan 18 klaim yang salah, dengan rasio 1/3, persis seperti yang dihasilkan oleh aturan Bayes.

James Otto
sumber
11

Anda benar. Solusi yang diposting situs web berdasarkan kesalahan membaca masalah karena 80% dari klaim non-penipuan diklasifikasikan sebagai penipuan dan bukan 20% yang diberikan.

Dilip Sarwate
sumber