Untuk pemahaman saya (yang sangat mendasar), Naive Bayes memperkirakan probabilitas berdasarkan frekuensi kelas setiap fitur dalam data pelatihan. Tetapi bagaimana cara menghitung frekuensi variabel kontinu? Dan ketika melakukan prediksi, bagaimana cara mengklasifikasikan pengamatan baru yang mungkin tidak memiliki nilai yang sama dari pengamatan dalam set pelatihan? Apakah ia menggunakan semacam pengukur jarak atau menemukan 1NN?
14
Jawaban:
Ada banyak cara untuk melakukan klasifikasi naif Bayes (NBC). Teknik umum dalam NBC adalah mengkode ulang nilai-nilai fitur (variabel) ke dalam kuartil, sehingga nilai-nilai yang kurang dari persentil ke-25 ditetapkan sebagai 1, 25 ke 50, 2, 50 ke 75, dan 3 lebih besar dari persentil ke-75, 4. Jadi satu objek akan menyimpan satu hitungan dalam bin Q1, Q2, Q3, atau Q4. Perhitungan hanya dilakukan pada nampan kategoris ini. Jumlah bin (probabilitas) kemudian didasarkan pada jumlah sampel yang nilai variabelnya termasuk dalam bin yang diberikan. Misalnya, jika satu set objek memiliki nilai yang sangat tinggi untuk fitur X1, maka ini akan menghasilkan banyak jumlah bin dalam bin untuk Q4 dari X1. Di sisi lain, jika set objek lain memiliki nilai rendah untuk fitur X1, maka objek-objek itu akan menyimpan banyak jumlah dalam bin untuk Q1 dari fitur X1.
Ini sebenarnya bukan perhitungan yang benar-benar pintar, ini lebih merupakan cara untuk mendiskritisasi nilai-nilai berkelanjutan menjadi diskrit, dan eksploitasi setelahnya. Indeks Gini dan perolehan informasi dapat dengan mudah dihitung setelah diskritisasi untuk menentukan fitur mana yang paling informatif, yaitu maks (Gini).
Maklum, bagaimanapun, bahwa ada banyak cara untuk melakukan NBC, dan banyak yang sangat berbeda satu sama lain. Jadi, Anda hanya perlu menyatakan mana yang Anda laksanakan dalam ceramah atau makalah.
sumber
Jantung Naive Bayes adalah asumsi kondisional heroik:
Ada berbagai cara untuk memperkirakan parameter, tetapi biasanya orang mungkin:
sumber