Bagaimana cara menangani faktor nol dalam perhitungan Naive Bayes Classifier?

Jika saya memiliki kumpulan data pelatihan dan saya melatih Naive Bayes Classifier di atasnya dan saya memiliki nilai atribut yang memiliki probabilitas nol. Bagaimana saya menangani ini jika nanti saya ingin memprediksi klasifikasi pada data baru? Masalahnya adalah, jika ada nol dalam perhitungan seluruh produk menjadi nol, tidak peduli berapa banyak nilai lain yang saya dapatkan yang mungkin akan menemukan solusi lain.

Contoh:

$P(x|spam=yes) = P(TimeZone = US | spam=yes) \cdot P(GeoLocation = EU | spam = yes) \cdot ~ ... ~ = 0.004$

$P(x|spam=no) = P(TimeZone = US | spam=no) \cdot P(GeoLocation = EU | spam = no) \cdot ~ ... ~ = 0$

Seluruh produk menjadi karena dalam data pelatihan, atribut TimeZone US selalu Ya dalam kumpulan data pelatihan kecil kami. Bagaimana saya bisa menangani ini? Haruskah saya menggunakan satu set data pelatihan yang lebih besar atau apakah ada kemungkinan lain untuk mengatasi masalah ini? $0$

classification naive-bayes-classifier wangi
sumber

Jika Anda mendapatkan nilai atribut diskrit yang terjadi, probabilitasnya tidak boleh nol, menurut definisi.

Paul

mengapa kita menambahkan 1 dalam 0 masalah frekuensi apa logika di balik ini mengapa tidak kita tambahkan nomor lain

Aftab Hussaiin

Jawaban:

Pendekatan untuk mengatasi 'masalah frekuensi nol' ini dalam pengaturan Bayesian adalah dengan menambahkan satu ke hitungan untuk setiap kombinasi kelas nilai atribut ketika nilai atribut tidak terjadi pada setiap nilai kelas. Jadi, misalnya, katakanlah data pelatihan Anda tampak seperti ini:

\begin{array}{ccc} Spam = y e s & Spam = n Hai \\ Zona waktu = U S & 10 & 5 \\ Zona waktu = E U & 0 & 0 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 10 & 5 \\ \hline \text{TimeZone} = EU & 0 & 0 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{10}{10} = 1$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{0}{10} = 0$

Maka Anda harus menambahkan satu ke setiap nilai dalam tabel ini saat Anda menggunakannya untuk menghitung probabilitas:

\begin{array}{ccc} Spam = y e s & Spam = n Hai \\ Zona waktu = U S & 11 & 6 \\ Zona waktu = E U & 1 & 1 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 11 & 6 \\ \hline \text{TimeZone} = EU & 1 & 1 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{11}{12}$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{1}{12}$

timleathart
sumber

Memang. Perhatikan bahwa terkadang Anda dapat menambahkan nilai selain satu. Untuk perinciannya, lihat en.wikipedia.org/wiki/Additive_smoothing

DaL