Mengabaikan kemungkinan pembatasan komputasi, apakah ada aplikasi umum di mana lemmatization akan menjadi langkah kontraproduktif ketika menganalisis data teks?
Misalnya, apakah lemmatisasi akan menjadi sesuatu yang tidak dilakukan ketika membangun model yang sadar konteks?
Untuk referensi, lemmatization per dictinory.com adalah tindakan pengelompokan bersama bentuk-bentuk infleksi (kata) untuk analisis sebagai satu item.
Misalnya, kata 'masak' adalah lemma dari kata 'memasak'. Tindakan lemmatization, misalnya, mengganti kata memasak dengan juru masak setelah Anda tokenized data teks Anda. Selain itu, kata 'buruk' memiliki 'buruk' sebagai lemma-nya, dan sebagai contoh sebelumnya menggantikan kata 'buruk' dengan 'buruk' adalah tindakan lemasiasi.
sumber
Jawaban:
Tugas NLP yang akan dirugikan oleh lemmatization:
1) Klasifikasi tegang
Urutan karakter di akhir kata kerja dapat membantu dalam tugas ini. Kata kerja dimasak dan koki berbeda pada karakter terakhir ed dan s repectively.
Dengan lemmatization, informasi ini hilang. Kedua kata kerja menjadi masak , membuat kedua kalimat itu tampak (dalam hal ini) dalam present tense.
2) Identifikasi penulis
Diberikan
mengklasifikasikan jika dokumen ditulis oleh penulis atau .s∈S a b
Salah satu cara untuk mencapai ini adalah dengan melihat histogram dari kata-kata yang ada di dan membandingkannya dengan dokumen dari dan dan pilih yang paling mirip.s P Q
Ini berfungsi karena penulis yang berbeda menggunakan kata-kata tertentu dengan frekuensi yang berbeda. Namun, dengan menggunakan lematization, Anda mendistorsi frekuensi ini sehingga mengganggu kinerja model Anda.
sumber