Apa itu Bayes Error dalam pembelajaran mesin?

15

http://www.deeplearningbook.org/contents/ml.html menjelaskan kesalahan bayes seperti di bawah ini

Model yang ideal adalah oracle yang hanya tahu distribusi probabilitas sebenarnya yang menghasilkan data. Bahkan model seperti itu masih akan menimbulkan beberapa kesalahan pada banyak masalah, karena mungkin masih ada kebisingan dalam distribusi. Dalam kasus pembelajaran yang diawasi, pemetaan dari x ke y mungkin secara inheren bersifat stokastik, atau y mungkin merupakan fungsi deterministik yang melibatkan variabel lain selain yang termasuk dalam x. Kesalahan yang ditimbulkan oleh ramalan membuat prediksi dari distribusi benar p (x, y) disebut kesalahan Bayes.

Pertanyaan

  1. Tolong jelaskan kesalahan Bayes secara intuitif?
  2. Apa bedanya dengan kesalahan yang tidak dapat dikurangi?
  3. Dapatkah saya mengatakan kesalahan total = Bias + Varians + kesalahan Bayes?
  4. Apa arti dari "y mungkin secara inheren stokastik"?
GeorgeOfTheRF
sumber

Jawaban:

23

Kesalahan Bayes adalah kesalahan prediksi serendah mungkin yang dapat dicapai dan sama dengan kesalahan yang tidak dapat direduksi. Jika seseorang tahu persis proses apa yang menghasilkan data, maka kesalahan akan tetap dilakukan jika prosesnya acak. Ini juga yang dimaksud dengan "y

Misalnya, ketika membalik koin yang adil, kita tahu persis proses apa yang menghasilkan hasilnya (distribusi binomial). Namun, jika kita memprediksikan hasil dari serangkaian koin yang terbalik, kita masih akan membuat kesalahan, karena prosesnya secara acak acak (yaitu stokastik).

Untuk menjawab pertanyaan Anda yang lain, Anda benar dalam menyatakan bahwa kesalahan total adalah jumlah dari bias (kuadrat), varians, dan kesalahan yang tidak dapat direduksi. Lihat juga ini artikel untuk penjelasan yang mudah dimengerti dari ketiga konsep ini.

Frans Rodenburg
sumber
-2

Dari https://www.cs.helsinki.fi/u/jkivinen/opetus/iml/2013/Bayes.pdf . Untuk tugas klasifikasi, kesalahan bayes didefinisikan sebagai:

msayanf=CHaist(f)

Sebuahrgmsayanf=CHaist(f)

Bias + Varians + Bayes error yang mungkin tergantung pada model Anda dan sifat yang melekat dari "noise distribusi"

y=f(x)=ssayan(x)y~=y+tdimana tN(0,σ2)Jadi Anda tidak punya cara untuk mengetahui y asli, dan estimasi biaya yang Anda miliki sudah tercemar secara inheren. Bahkan Oracle memberi Anda jawaban yang benar, Anda berpikir mereka salah.

JP Zhang
sumber