Mengapa Lucene IDF memiliki +1 yang tampaknya tambahan?

Semua skema pembobotan TF-IDF hanyalah metode heuristik untuk memberikan bobot lebih pada ketentuan yang tidak biasa. Saya tidak yakin bahwa skema TF-IDF umumnya memiliki dasar statistik yang kuat di belakangnya (lihat referensi 1), kecuali untuk pengamatan bahwa TF-IDF cenderung menghasilkan hasil yang lebih baik daripada jumlah kata yang sederhana. Karena kualitas hasil adalah pembenaran utama (satu-satunya?) Untuk TF-IDF di tempat pertama, orang bisa berpendapat bahwa mencoba metode Anda dengan dan tanpa +1 dan memilih yang terbaik akan baik-baik saja.

Jika saya membaca utas belajar sckit ini dengan benar, tampaknya Anda bukan orang pertama yang mengajukan pertanyaan serupa tentang menambahkan 1 ke skor IDF. Konsensus di utas itu adalah +1 juga berperilaku tidak standar. Saya hanya membaca skimnya, tetapi utas yang muncul tidak berisi dukungan atau justifikasi +1 yang tegas.

Jadi pilihan +1 memiliki efek menempatkan batas bawah pada semua nilai IDF di 1 daripada di 0. Ini sama dengan menambahkan $e$ dokumen yang berisi setiap kata untuk korpus Anda. Tidak yakin mengapa itu bisa membantu, tapi mungkin itu dalam konteks tertentu. Seseorang bahkan mungkin memperlakukan beberapa parameter $c$ di $c+\log\left(\frac{\text{numDocs}}{\text{docFreq+1}}\right)$ sebagai parameter penyetelan, untuk memberi Anda rangkaian skema IDF yang lebih fleksibel $c$ sebagai batas bawah mereka.

Ketika batas bawah IDF adalah nol, produk $\text{term frequency}\times\text{IDF}$ mungkin 0 untuk beberapa istilah, sehingga istilah-istilah itu tidak diberi bobot sama sekali dalam prosedur pembelajaran; secara kualitatif, istilah tersebut sangat umum sehingga tidak memberikan informasi yang relevan dengan tugas NLP. Ketika batas bawah bukan nol, istilah ini akan memiliki pengaruh lebih besar.

John Lafferty dan Guy Lebanon. " Kernel Difusi pada Manifold Statistik ." Jurnal Pembelajaran Mesin. 2005

Sycorax berkata Reinstate Monica
sumber

Terima kasih atas jawaban yang baik. Saya berharap mendapatkan ide yang lebih baik mengapa batas bawah 1 untuk IDF berguna. Menarik bahwa orang lain memiliki pertanyaan yang sama, tanpa jawaban nyata.

Greg Dean

@GregDean Saya khawatir penjelasan ini adalah yang terbaik yang bisa saya kelola. Saya melakukan penelitian lebih lanjut untuk mencoba dan menemukan sesuatu yang lebih pasti, tetapi tidak memiliki banyak keberuntungan.

Sycorax berkata Reinstate Monica

Mengapa Lucene IDF memiliki +1 yang tampaknya tambahan?

Jawaban: