Mengapa menambahkan satu dalam frekuensi dokumen terbalik?

9

Saya buku daftar yang idf sebagai manalog(1+Nnt)

  • : Jumlah DokumenN
  • tnt : Jumlah Dokumen yang mengandung istilaht

Wikipedia mencantumkan rumus ini sebagai versi dari aktual . Yang saya mengerti: berkisar dari hingga yang tampaknya intuitif. Tapi berubah dari menjadi yang tampaknya sangat aneh ... Saya tahu sedikit tentang perataan dari pemodelan bahasa tetapi di sana Anda akan menambahkan sesuatu di pembilang serta dalam penyebut karena Anda khawatir tentang probabilitas massa. Tetapi menambahkan saja tidak masuk akal bagi saya. Apa yang ingin kita capai di sini?log(Nlog(Nnt)log(1+Nlog(NN)=0
log(1+1)1log(1+Nnt)log(1+1)
1

pengguna2740
sumber
terkait, tetapi bukan duplikat: stats.stackexchange.com/questions/152182/…
Sycorax mengatakan Reinstate Monica
Smoothening yang benar adalah
log(N(1+nt))
ashishpatel.co.in

Jawaban:

7

Seperti yang akan Anda tunjukkan di tempat lain yang membahas tf-idf, tidak ada formula tunggal yang disepakati secara universal untuk menghitung tf-idf atau bahkan (seperti dalam pertanyaan Anda) idf . Tujuan dari adalah untuk mencapai salah satu dari dua tujuan: a) untuk divisi menghindari dengan nol , seperti ketika muncul istilah dalam tidak ada dokumen, meskipun ini tidak akan terjadi dalam ketat "tas dari kata-kata" pendekatan, atau b) untuk menetapkan batas bawah untuk menghindari istilah yang diberi bobot nol hanya karena muncul di semua dokumen.+1

Aku sudah benar-benar pernah melihat formulasi , meskipun Anda menyebutkan buku teks. Tetapi tujuannya adalah untuk menetapkan batas bawahlog(2)bukan nol, karena Anda benar menafsirkan. Saya telah melihat1 +log(Nlog(1+Nnt)lHaig(2)lHaig(Nnt), yang menetapkan batas bawah dari 1. Perhitungan paling umum digunakan tampaknya, seperti dalam Manning, Christopher D, Prabhakar Raghavan, dan Hinrich Schütze (2008)Pengantar Pengambilan Informasi, Cambridge University Press, p118 atauWikipedia(berdasarkan sumber yang serupa).lHaig(Nnt)

k+lHaig(N/s)k,s0,1s1+nt=1N

Ken Benoit
sumber