Jika saya memiliki kumpulan data pelatihan dan saya melatih Naive Bayes Classifier di atasnya dan saya memiliki nilai atribut yang memiliki probabilitas nol. Bagaimana saya menangani ini jika nanti saya ingin memprediksi klasifikasi pada data baru? Masalahnya adalah, jika ada nol dalam perhitungan seluruh produk menjadi nol, tidak peduli berapa banyak nilai lain yang saya dapatkan yang mungkin akan menemukan solusi lain.
Contoh:
Seluruh produk menjadi karena dalam data pelatihan, atribut TimeZone US selalu Ya dalam kumpulan data pelatihan kecil kami. Bagaimana saya bisa menangani ini? Haruskah saya menggunakan satu set data pelatihan yang lebih besar atau apakah ada kemungkinan lain untuk mengatasi masalah ini?
Jawaban:
Pendekatan untuk mengatasi 'masalah frekuensi nol' ini dalam pengaturan Bayesian adalah dengan menambahkan satu ke hitungan untuk setiap kombinasi kelas nilai atribut ketika nilai atribut tidak terjadi pada setiap nilai kelas. Jadi, misalnya, katakanlah data pelatihan Anda tampak seperti ini:
Maka Anda harus menambahkan satu ke setiap nilai dalam tabel ini saat Anda menggunakannya untuk menghitung probabilitas:
sumber