Saya mencoba untuk menghapus kata-kata berhenti sebelum melakukan pemodelan topik. Saya perhatikan bahwa beberapa kata negasi (tidak, tidak, tidak, tidak ada, dll.) Biasanya dianggap sebagai kata-kata berhenti. Misalnya, NLTK, spacy dan sklearn menyertakan "tidak" pada daftar kata stop mereka. Namun, jika kita menghapus "tidak" dari kalimat-kalimat di bawah ini, mereka kehilangan makna yang signifikan dan itu tidak akan akurat untuk pemodelan topik atau analisis sentimen.
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
Adakah yang bisa menjelaskan mengapa kata-kata pengingkaran ini biasanya dianggap sebagai kata-kata berhenti?
Jawaban:
Stop kata biasanya dianggap sebagai "kata yang paling umum dalam suatu bahasa". Namun, definisi lain berdasarkan tugas yang berbeda dimungkinkan.
Masuk akal untuk mempertimbangkan 'tidak' sebagai kata penghenti jika tugas Anda didasarkan pada frekuensi kata (mis. Analisis tf-idf untuk klasifikasi dokumen).
Jika Anda peduli dengan konteks (misalnya analisis sentimen ) teks, mungkin masuk akal untuk memperlakukan kata-kata negasi secara berbeda. Negasi mengubah apa yang disebut valensi teks. Ini perlu dirawat dengan hati-hati dan biasanya tidak sepele. Salah satu contoh akan menjadi corpus negasi Twitter. Penjelasan tentang pendekatan diberikan dalam makalah ini .
sumber