Saya sedang membaca:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Tapi sepertinya saya tidak bisa mengerti persis mengapa formula itu dibuat seperti itu.
Apa yang saya Pahami:
iDF pada tingkat tertentu harus mengukur seberapa sering suatu istilah S muncul di setiap dokumen, menurun nilainya ketika istilah itu muncul lebih sering.
Dari perspektif itu
Selanjutnya frekuensi istilah dapat dengan tepat digambarkan sebagai
Jadi ukurannya
dalam beberapa cara proporsional dengan seberapa sering suatu istilah muncul dalam dokumen yang diberikan, dan seberapa unik istilah itu di atas kumpulan dokumen.
Apa yang tidak saya mengerti
Tetapi formula yang diberikan menggambarkannya sebagai
Saya ingin memahami perlunya logaritma yang dijelaskan dalam definisi. Seperti, mengapa mereka ada di sana? Aspek apa yang mereka tekankan?
sumber
\log
, saya selalu melupakan mereka); +1 untuk keduanya. Saya telah melihat kertas Robertson dan berencana menambahkannya; itu bacaan yang sangat bagus, saya akan menambahkannya di bagian utama.number of occurrences for all strings in document D
. Mengapa kita menginginkan jumlah kata yang paling umum dan bukan jumlah semua kata?