Saya sedang mengerjakan masalah klasifikasi teks menggunakan Random Forest sebagai pengklasifikasi, dan pendekatan bag-of-words. Saya menggunakan implementasi dasar dari Random Forests (yang ada di scikit), yang menciptakan kondisi biner pada variabel tunggal di setiap pembagian. Mengingat hal ini, apakah ada perbedaan antara menggunakan fitur tf (frekuensi frekuensi) sederhana. di mana setiap kata memiliki bobot terkait yang mewakili jumlah kemunculan dalam dokumen, atau tf-idf (frekuensi istilah * frekuensi dokumen terbalik), di mana frekuensi istilah juga dikalikan dengan nilai yang mewakili rasio antara jumlah total dokumen dan jumlah dokumen yang mengandung kata)?
Menurut pendapat saya, seharusnya tidak ada perbedaan antara kedua pendekatan ini, karena satu-satunya perbedaan adalah faktor penskalaan pada setiap fitur, tetapi karena pemisahan dilakukan pada tingkat fitur tunggal, ini seharusnya tidak membuat perbedaan.
Apakah saya benar dalam alasan saya?
Jawaban:
Pohon keputusan (dan karenanya Hutan Acak) tidak sensitif terhadap transformasi monoton fitur input.
Karena mengalikan dengan faktor yang sama adalah transformasi monoton, saya berasumsi bahwa untuk Hutan Acak memang tidak ada perbedaan.
Namun, Anda akhirnya dapat mempertimbangkan untuk menggunakan pengklasifikasi lain yang tidak memiliki properti ini, jadi mungkin masih masuk akal untuk menggunakan seluruh TF * IDF.
sumber