Memahami penggunaan logaritma dalam logaritma TF-IDF

Saya sedang membaca:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Tapi sepertinya saya tidak bisa mengerti persis mengapa formula itu dibuat seperti itu.

Apa yang saya Pahami:

iDF pada tingkat tertentu harus mengukur seberapa sering suatu istilah S muncul di setiap dokumen, menurun nilainya ketika istilah itu muncul lebih sering.

Dari perspektif itu

saya D F (S) = \frac{# dokumen}{# Dokumen yang mengandung S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

Selanjutnya frekuensi istilah dapat dengan tepat digambarkan sebagai

t f (S, D) = \frac{# Kejadian S dalam dokumen D}{# jumlah kemunculan maksimum untuk string Q apa ​​pun dalam dokumen D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

Jadi ukurannya

saya D F (S) \times t f (S, D)

$iDF(S) \times tf(S,D)$

dalam beberapa cara proporsional dengan seberapa sering suatu istilah muncul dalam dokumen yang diberikan, dan seberapa unik istilah itu di atas kumpulan dokumen.

Apa yang tidak saya mengerti

Tetapi formula yang diberikan menggambarkannya sebagai

(catatan (saya D F (S))) (\frac{1}{2} + catatan (\frac{1}{2} t f (S, D)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

Saya ingin memahami perlunya logaritma yang dijelaskan dalam definisi. Seperti, mengapa mereka ada di sana? Aspek apa yang mereka tekankan?

machine-learning clustering mathematical-statistics text-mining natural-language frogeyedpeas
sumber

Jawaban:

Aspek yang ditekankan adalah bahwa relevansi suatu istilah atau dokumen tidak meningkat secara proporsional dengan frekuensi istilah (atau dokumen). Oleh karena itu, menggunakan fungsi sub-linear membantu membuang efek ini. Untuk itu memperluas pengaruh nilai yang sangat besar atau sangat kecil (misalnya kata yang sangat langka) juga diamortisasi. Akhirnya karena kebanyakan orang secara intuitif menganggap fungsi pemberian skor agak aditif dengan menggunakan logaritma akan membuat probabilitas istilah independen yang berbeda dari agar lebih mirip dengan . $P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

Sebagai artikel Wikipedia yang Anda tautkan mencatat pembenaran TF-IDF masih belum mapan; ini adalah heuristik yang ingin kita buat secara ketat, bukan konsep yang keras yang ingin kita transfer ke dunia nyata. Seperti yang disebutkan oleh @ Anony-Mousse sebagai bacaan yang sangat baik tentang masalah ini adalah Frekuensi Dokumen Pembalikan Robertson yang Memahami: Pada argumen teoretis untuk IDF . Ini memberikan gambaran luas dari keseluruhan kerangka kerja dan upaya untuk membumikan metodologi TF-IDF dengan pembobotan relevansi istilah pencarian.

usεr11852
sumber

Beberapa pembenaran TF-IDF dapat ditemukan dalam "Studi formal heuristik pengambilan informasi.", 2004 oleh Fang, Hui et al ( pdf ).

Alexey Grigorev

Saya pikir ini adalah referensi yang lebih baik untuk pembenaran TF-IDF: Robertson, S. (2004). + Msgstr "Memahami frekuensi dokumen terbalik: Tentang argumen teoretis untuk IDF". Jurnal Dokumentasi 60 (5): 503–520.

Memiliki QUIT - Anony-Mousse

Terima kasih atas komentar Anda tuan-tuan (dan terima kasih khusus Alexey untuk mengoreksi \log, saya selalu melupakan mereka); +1 untuk keduanya. Saya telah melihat kertas Robertson dan berencana menambahkannya; itu bacaan yang sangat bagus, saya akan menambahkannya di bagian utama.

usεr11852

@ Anony-Mousse (pdf)

Walrus the Cat

Saya ingin tahu mengapa "jumlah kejadian maksimum untuk string Q apa pun dalam dokumen D" digunakan sebagai ganti number of occurrences for all strings in document D. Mengapa kita menginginkan jumlah kata yang paling umum dan bukan jumlah semua kata?

Xeoncross