Statistics.com menerbitkan masalah minggu ini: Tingkat penipuan asuransi perumahan adalah 10% (satu dari sepuluh klaim adalah penipuan). Seorang konsultan telah mengusulkan sistem pembelajaran mesin untuk meninjau klaim dan mengklasifikasikannya sebagai penipuan atau tidak-penipuan. Sistem ini 90% efektif dalam mendeteksi klaim penipuan, tetapi hanya 80% efektif dalam mengklasifikasikan dengan benar klaim non-penipuan (salah mengartikan satu dari lima sebagai "penipuan"). Jika sistem mengklasifikasikan klaim sebagai penipuan, berapakah probabilitas bahwa itu benar-benar palsu?
https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true
Rekan saya dan saya berdua menghasilkan jawaban yang sama secara independen dan tidak cocok dengan solusi yang dipublikasikan.
Solusi kami:
(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3
Solusi mereka:
Ini adalah masalah dalam probabilitas bersyarat. (Ini juga masalah Bayesian, tetapi menerapkan formula dalam Bayes Rule hanya membantu mengaburkan apa yang sedang terjadi.) Pertimbangkan 100 klaim. 10 akan menjadi penipuan, dan sistem akan dengan benar memberi label 9 dari mereka sebagai "penipuan." 90 klaim akan baik-baik saja, tetapi sistem akan secara salah mengklasifikasikan 72 (80%) sebagai "penipuan." sebagai penipu, tetapi hanya 9 dari mereka, 11%, yang sebenarnya penipu.
Siapa yang benar
sumber
Jawaban:
Saya percaya bahwa Anda dan kolega Anda benar. Statistics.com memiliki garis pemikiran yang benar, tetapi membuat kesalahan sederhana. Dari 90 klaim "OK", kami berharap 20% dari mereka secara tidak benar diklasifikasikan sebagai penipuan, bukan 80%. 20% dari 90 adalah 18, mengarah ke 9 klaim yang diidentifikasi dengan benar dan 18 klaim yang salah, dengan rasio 1/3, persis seperti yang dihasilkan oleh aturan Bayes.
sumber
Anda benar. Solusi yang diposting situs web berdasarkan kesalahan membaca masalah karena 80% dari klaim non-penipuan diklasifikasikan sebagai penipuan dan bukan 20% yang diberikan.
sumber