Pendekatan umum untuk klasifikasi teks adalah untuk melatih classifier dari 'kata-kata'. Pengguna mengambil teks untuk diklasifikasikan dan menghitung frekuensi kata-kata di setiap objek, diikuti oleh semacam pemangkasan untuk menjaga matriks yang dihasilkan dari ukuran yang dapat dikelola.
Seringkali, saya melihat pengguna membuat vektor fitur mereka menggunakan TFIDF. Dengan kata lain, frekuensi teks yang disebutkan di atas diturunkan menurut frekuensi kata dalam corpus. Saya melihat mengapa TFIDF akan berguna untuk memilih kata-kata 'paling membedakan' dari dokumen yang diberikan untuk, katakanlah, tampilan kepada seorang analis manusia. Tetapi dalam kasus kategorisasi teks menggunakan teknik ML yang diawasi standar, mengapa repot-repot menurunkan berat badan dengan frekuensi dokumen dalam corpus? Tidakkah pelajar itu sendiri akan memutuskan pentingnya untuk menetapkan setiap kata / kombinasi kata? Saya akan berterima kasih atas pemikiran Anda tentang nilai apa yang ditambahkan IDF, jika ada.
Dalam kasus biasa, Anda dapat memiliki lebih banyak dokumen di dalam korpus Anda daripada dokumen berlabel. Itu berarti IDF dapat dihitung jauh lebih akurat dan lengkap ketika menggunakan seluruh korpus.
Selanjutnya pertimbangkan kasus di mana corpus yang bisa Anda dapatkan sejauh ini semuanya berlabel atau subset berlabel "cukup besar". Dalam hal ini jumlah iterasi yang diperlukan untuk pelatihan mungkin bisa lebih kecil ketika menggunakan TfIDF karena algoritma pembelajaran tidak perlu belajar sebanyak itu.
Akhirnya, dalam kasus yang sama ini, Anda juga dapat memberikan tf saja, atau tf dan idf secara terpisah (atau bahkan menyertakan tfidf juga). Saya akan berpikir ini berpotensi menghasilkan hasil yang lebih baik, misalnya, ketika menggunakan fungsi kernel yang canggih.
sumber