Dalam banyak aplikasi pemrosesan bahasa alami seperti koreksi ejaan, terjemahan mesin, dan pengenalan suara, kami menggunakan model bahasa. Model bahasa biasanya dibuat dengan menghitung seberapa sering urutan kata-kata (n-gram) terjadi dalam korpus besar dan menormalkan hitungan untuk menciptakan probabilitas. Untuk menghitung n-gram yang tidak terlihat, kami menggunakan metode penghalusan (lihat beberapa yang tercantum di sini ) yang mengambil sebagian probabilitas dari n-gram yang dibuktikan dalam model dan mendistribusikan massa ini di antara n-gram orde rendah (urutan kata yang lebih pendek) ) probabilitas backoff.
Banyak teknik penghalusan menjadi kompleks secara matematis karena kendala bahwa perhitungan harus menjaga distribusi sebagai probabilitas (harus menambahkan hingga 1).
Apa alasan dari kendala ini? Apa keuntungan menggunakan probabilitas ketat untuk prediksi daripada skor apa pun?
PS Referensi yang terkait dengan tautan tersebut adalah [Stanley F. Chen dan Joshua Goodman (1998), "Sebuah Studi Empiris tentang Teknik Perataan untuk Pemodelan Bahasa"].
Jawaban:
Keuntungan utama menggunakan probabilitas yang ketat adalah a) kemudahan interpretasi angka-angka; dan b) dapat menggunakan teorema Bayes dan metode probabilistik lainnya dalam analisis selanjutnya. Namun dalam beberapa situasi, itu tidak perlu. Misalnya jika Anda hanya ingin memberi peringkat hasil tanpa analisis lebih lanjut, maka tidak perlu untuk menormalkan skor.
sumber