Apakah Statistics.com menerbitkan jawaban yang salah?

Statistics.com menerbitkan masalah minggu ini: Tingkat penipuan asuransi perumahan adalah 10% (satu dari sepuluh klaim adalah penipuan). Seorang konsultan telah mengusulkan sistem pembelajaran mesin untuk meninjau klaim dan mengklasifikasikannya sebagai penipuan atau tidak-penipuan. Sistem ini 90% efektif dalam mendeteksi klaim penipuan, tetapi hanya 80% efektif dalam mengklasifikasikan dengan benar klaim non-penipuan (salah mengartikan satu dari lima sebagai "penipuan"). Jika sistem mengklasifikasikan klaim sebagai penipuan, berapakah probabilitas bahwa itu benar-benar palsu?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Rekan saya dan saya berdua menghasilkan jawaban yang sama secara independen dan tidak cocok dengan solusi yang dipublikasikan.

Solusi kami:

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

Solusi mereka:

Ini adalah masalah dalam probabilitas bersyarat. (Ini juga masalah Bayesian, tetapi menerapkan formula dalam Bayes Rule hanya membantu mengaburkan apa yang sedang terjadi.) Pertimbangkan 100 klaim. 10 akan menjadi penipuan, dan sistem akan dengan benar memberi label 9 dari mereka sebagai "penipuan." 90 klaim akan baik-baik saja, tetapi sistem akan secara salah mengklasifikasikan 72 (80%) sebagai "penipuan." sebagai penipu, tetapi hanya 9 dari mereka, 11%, yang sebenarnya penipu.

Siapa yang benar

probability bayesian puzzle ChrisG
sumber

Sepertinya mereka mengoreksi solusi di situs web mereka agar sesuai dengan apa yang Anda hitung

tidak

@ tidak, diam-diam mengoreksi jawabannya. sneaky

Aksakal

Trivia: dalam pengambilan keputusan perilaku, masalah ini sering disebut sebagai "masalah mammogram", karena presentasi biasanya adalah tentang kemungkinan pasien kanker diberikan mammogram positif.

Kodiologis

"Kabar baiknya adalah, sistem kami mengklasifikasikan 90% penipuan sebagai penipuan. Berita buruknya adalah, ia mengklasifikasikan 80% non-penipuan sebagai penipuan." Perhatikan bahwa 11% yang mereka hitung hanya sedikit lebih tinggi dari tarif dasar 10%. Model pembelajaran mesin di mana tingkat penipuan dalam kasus-kasus yang ditandai hanya 10% lebih dari tingkat dasar cukup mengerikan.

Akumulasi

Ini dikenal sebagai paradoks positif palsu

BlueRaja - Danny Pflughoeft

Apakah Statistics.com menerbitkan jawaban yang salah?

Jawaban: