Menurut dokumentasi removeSparseTerms
fungsi dari tm
paket, inilah yang diperlukan sparsity:
A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse.
Jadi, apakah interpretasi yang benar dari ini mengatakan jika sparse
sama dengan 0,99, maka kita menghapus istilah yang hanya muncul paling banyak 1% dari data?
r
text-mining
natural-language
zthomas.nc
sumber
sumber
Jawaban:
Ya , meskipun kebingungan Anda di sini dapat dimengerti, karena istilah "sparsity" sulit untuk didefinisikan dengan jelas dalam konteks ini.
Dalam arti
sparse
argumen untukremoveSparseTerms()
, sparsity mengacu pada ambang frekuensi dokumen relatif untuk suatu istilah, di atas mana istilah tersebut akan dihapus. Frekuensi dokumen relatif di sini berarti proporsi. Saat halaman bantuan untuk perintah menyatakan (meskipun tidak terlalu jelas), sparsity lebih kecil saat mendekati 1.0. (Perhatikan bahwa sparsity tidak dapat mengambil nilai 0 atau 1.0, hanya nilai di antaranya.)sparse = 0.99
sparse = 0.99
Di dekat ekstrim lainnya, jika
sparse = .01
, maka hanya istilah yang muncul dalam (hampir) setiap dokumen yang akan dipertahankan. (Tentu saja ini tergantung pada jumlah istilah dan jumlah dokumen, dan dalam bahasa alami, kata-kata umum seperti "the" cenderung muncul di setiap dokumen dan karenanya tidak pernah menjadi "jarang".)Contoh ambang sparsity 0,99, di mana istilah yang paling banyak muncul di (contoh pertama) kurang dari 0,01 dokumen, dan (contoh kedua) lebih dari 0,01 dokumen:
Berikut adalah beberapa contoh tambahan dengan teks dan istilah yang sebenarnya:
Dalam contoh terakhir dengan
sparse = 0.34
, hanya istilah yang muncul dalam dua pertiga dari dokumen yang dipertahankan.Pendekatan alternatif untuk memotong istilah dari matriks istilah dokumen berdasarkan frekuensi dokumen adalah paket analisis teks kuanteda . Fungsionalitas yang sama di sini merujuk bukan pada sparsity melainkan langsung ke frekuensi dokumen istilah (seperti dalam tf-idf ).
Penggunaan ini tampaknya jauh lebih mudah bagi saya.
sumber