Pendekatan tradisional konstruksi fitur untuk penambangan teks adalah pendekatan bag-of-words, dan dapat ditingkatkan menggunakan tf-idf untuk mengatur vektor fitur yang menjadi ciri dokumen teks yang diberikan. Saat ini, saya mencoba menggunakan model bahasa bi-gram atau (N-gram) untuk membangun vektor fitur, tetapi tidak cukup tahu bagaimana melakukannya? Bisakah kita cukup mengikuti pendekatan bag-of-words, yaitu, menghitung jumlah frekuensi dalam hal bi-gram daripada kata-kata, dan meningkatkannya menggunakan skema pembobotan tf-idf?
10
Jumlah bigrams dapat dikurangi dengan memilih hanya mereka yang memiliki informasi timbal balik positif.
Kami melakukan ini untuk menghasilkan sekumpulan perwakilan bigrams di jalur Penambangan XML INEX, http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp .
Apa yang tidak kami coba adalah menggunakan informasi timbal balik antara istilah dalam menimbang bi-gram. Lihat https://en.wikipedia.org/wiki/Pointwise_mutual_information , https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdf dan http: //www.nltk. org / howto / collocations.html untuk penjelasan yang lebih baik tentang informasi timbal balik yang tajam untuk bigrams.
Lihat /programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python dan /programming/22118350/python-sentiment-analysis -menggunakan-pointwise-mutual-informasi untuk pertanyaan lain yang berkaitan dengan ini.
sumber
Menggunakan proyeksi acak untuk mengurangi dimensi data mungkin terbukti bermanfaat untuk mengurangi ruang yang diperlukan untuk menyimpan fitur, https://en.wikipedia.org/wiki/Random_projection . Ini berskala sangat baik dan setiap contoh dapat diproyeksikan ke ruang dimensi yang lebih rendah secara mandiri dan tanpa metode optimasi langsung seperti PCA, SVD, Sammon Maps, NMF, dll.
sumber