Mengapa menambahkan satu dalam frekuensi dokumen terbalik?

Saya buku daftar yang idf sebagai mana $log(1+\frac{N}{n_t})$

: Jumlah Dokumen $N$
$n_t$ : Jumlah Dokumen yang mengandung istilah $t$

Wikipedia mencantumkan rumus ini sebagai versi dari aktual . Yang saya mengerti: berkisar dari hingga yang tampaknya intuitif. Tapi berubah dari menjadi yang tampaknya sangat aneh ... Saya tahu sedikit tentang perataan dari pemodelan bahasa tetapi di sana Anda akan menambahkan sesuatu di pembilang serta dalam penyebut karena Anda khawatir tentang probabilitas massa. Tetapi menambahkan saja tidak masuk akal bagi saya. Apa yang ingin kita capai di sini? $log(\frac{N}{n_t})$ $log(\frac{N}{N})=0$ $\infty$
$log(1+\frac{N}{n_t})$ $log(1+1)$ $\infty$
$1$

text-mining natural-language smoothing pengguna2740
sumber

terkait, tetapi bukan duplikat: stats.stackexchange.com/questions/152182/…

Sycorax mengatakan Reinstate Monica

Smoothening yang benar adalah

\log (\frac{N}{(1 + n_{t})})

$\log(\frac N {(1+n_{t})})$

ashishpatel.co.in

Jawaban:

Seperti yang akan Anda tunjukkan di tempat lain yang membahas tf-idf, tidak ada formula tunggal yang disepakati secara universal untuk menghitung tf-idf atau bahkan (seperti dalam pertanyaan Anda) idf . Tujuan dari adalah untuk mencapai salah satu dari dua tujuan: a) untuk divisi menghindari dengan nol , seperti ketika muncul istilah dalam tidak ada dokumen, meskipun ini tidak akan terjadi dalam ketat "tas dari kata-kata" pendekatan, atau b) untuk menetapkan batas bawah untuk menghindari istilah yang diberi bobot nol hanya karena muncul di semua dokumen. $+ 1$

Aku sudah benar-benar pernah melihat formulasi , meskipun Anda menyebutkan buku teks. Tetapi tujuannya adalah untuk menetapkan batas bawahbukan nol, karena Anda benar menafsirkan. Saya telah melihat1 + $log(1+\frac{N}{n_t})$ $log(2)$ $log(\frac{N}{n_t})$ , yang menetapkan batas bawah dari 1. Perhitungan paling umum digunakan tampaknya, seperti dalam Manning, Christopher D, Prabhakar Raghavan, dan Hinrich Schütze (2008)Pengantar Pengambilan Informasi, Cambridge University Press, p118 atauWikipedia(berdasarkan sumber yang serupa). $log(\frac{N}{n_t})$

$\infty$ $k + log(N/s)$ $k, s \in {0, 1}$ $s$ $\rightarrow \infty$ $1 + n_t=1$ $N \rightarrow \infty$

Ken Benoit
sumber