Bagaimana cara kerja Naif Bayes dengan variabel kontinu?

14

Untuk pemahaman saya (yang sangat mendasar), Naive Bayes memperkirakan probabilitas berdasarkan frekuensi kelas setiap fitur dalam data pelatihan. Tetapi bagaimana cara menghitung frekuensi variabel kontinu? Dan ketika melakukan prediksi, bagaimana cara mengklasifikasikan pengamatan baru yang mungkin tidak memiliki nilai yang sama dari pengamatan dalam set pelatihan? Apakah ia menggunakan semacam pengukur jarak atau menemukan 1NN?

xyy
sumber
Berikut ini adalah perbandingan berdampingan antara Naif Bayes diskrit dan kontinu: datacience.stackexchange.com/a/47031/67328
Esmailian

Jawaban:

10

Ada banyak cara untuk melakukan klasifikasi naif Bayes (NBC). Teknik umum dalam NBC adalah mengkode ulang nilai-nilai fitur (variabel) ke dalam kuartil, sehingga nilai-nilai yang kurang dari persentil ke-25 ditetapkan sebagai 1, 25 ke 50, 2, 50 ke 75, dan 3 lebih besar dari persentil ke-75, 4. Jadi satu objek akan menyimpan satu hitungan dalam bin Q1, Q2, Q3, atau Q4. Perhitungan hanya dilakukan pada nampan kategoris ini. Jumlah bin (probabilitas) kemudian didasarkan pada jumlah sampel yang nilai variabelnya termasuk dalam bin yang diberikan. Misalnya, jika satu set objek memiliki nilai yang sangat tinggi untuk fitur X1, maka ini akan menghasilkan banyak jumlah bin dalam bin untuk Q4 dari X1. Di sisi lain, jika set objek lain memiliki nilai rendah untuk fitur X1, maka objek-objek itu akan menyimpan banyak jumlah dalam bin untuk Q1 dari fitur X1.

Ini sebenarnya bukan perhitungan yang benar-benar pintar, ini lebih merupakan cara untuk mendiskritisasi nilai-nilai berkelanjutan menjadi diskrit, dan eksploitasi setelahnya. Indeks Gini dan perolehan informasi dapat dengan mudah dihitung setelah diskritisasi untuk menentukan fitur mana yang paling informatif, yaitu maks (Gini).

Maklum, bagaimanapun, bahwa ada banyak cara untuk melakukan NBC, dan banyak yang sangat berbeda satu sama lain. Jadi, Anda hanya perlu menyatakan mana yang Anda laksanakan dalam ceramah atau makalah.

wrktsj
sumber
2

Jantung Naive Bayes adalah asumsi kondisional heroik:

P(xX,C)=P(xC)

xChal(xC=saya)=ϕ(μsaya,σsaya2)

Ada berbagai cara untuk memperkirakan parameter, tetapi biasanya orang mungkin:

  • Gunakan kemungkinan maksimum dengan data berlabel. (Dalam kasus distribusi normal, estimasi kemungkinan maksimum mean dan varians pada dasarnya adalah mean sampel dan varians sampel.)
  • Sesuatu seperti Algoritma EM dengan data tidak berlabel.
Matthew Gunn
sumber