Kapan saya menggunakan masing-masing?
Juga ... apakah lemmatisasi NLTK tergantung pada Bagian Bicara? Bukankah lebih akurat jika itu?
python
nlp
nltk
lemmatization
TIMEX
sumber
sumber
Jawaban:
Singkat dan padat: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
Dari dokumen NLTK:
sumber
Sumber : https://en.wikipedia.org/wiki/Lemmatisation
sumber
Ada dua aspek untuk menunjukkan perbedaan mereka:
Sebuah stemmer akan mengembalikan batang kata, yang tidak harus identik dengan akar morfologis kata tersebut. Biasanya cukup bahwa kata-kata terkait memetakan ke batang yang sama, bahkan jika batang itu sendiri tidak menjadi root yang valid, sedangkan dalam lemmatisasi , itu akan mengembalikan bentuk kamus dari kata, yang harus menjadi kata yang valid.
Dalam lemmatisasi , bagian ujaran kata harus ditentukan terlebih dahulu dan aturan normalisasi akan berbeda untuk bagian ujaran yang berbeda, sedangkan stemmer beroperasi pada satu kata tanpa pengetahuan konteks, dan oleh karena itu tidak dapat membedakan antara kata yang memiliki perbedaan. artinya tergantung pada bagian dari pidato.
Referensi http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization
sumber
Tujuan dari stemming dan lemmatization adalah untuk mengurangi variasi morfologis. Ini berbeda dengan prosedur "istilah konflasi" yang lebih umum, yang juga dapat membahas variasi leksico-semantik, sintaksis, atau ortografis.
Perbedaan nyata antara stemming dan lemmatization ada tiga:
Stemming mereduksi bentuk-kata menjadi batang (semu), sedangkan lemasiisasi mereduksi bentuk-kata menjadi lemma yang secara linguistik valid. Perbedaan ini jelas dalam bahasa dengan morfologi yang lebih kompleks, tetapi mungkin tidak relevan untuk banyak aplikasi IR;
Lemmatization hanya berurusan dengan varians infleksional, sedangkan stemming mungkin juga berurusan dengan varians derivasional;
Dalam hal implementasi, lemasiasi biasanya lebih canggih (terutama untuk bahasa yang secara morfologis kompleks) dan biasanya memerlukan semacam lexica. Di lain pihak, pemuasan yang memuaskan dapat dicapai dengan pendekatan berbasis aturan yang agak sederhana.
Lemmatization juga dapat didukung oleh tagger bagian-of-speech untuk menyangkal homonim.
sumber
Seperti yang MYYN tunjukkan, membendung adalah proses menghilangkan afiks infleksiional dan terkadang derivasional ke bentuk dasar yang mungkin terkait dengan semua kata aslinya. Lemmatization berkaitan dengan memperoleh satu kata yang memungkinkan Anda untuk mengelompokkan sekelompok formulir infleksi. Ini lebih sulit daripada membendung karena memerlukan konteks untuk memperhitungkan (dan dengan demikian makna kata), sementara membendung mengabaikan konteks.
Adapun ketika Anda akan menggunakan satu atau yang lain, itu masalah seberapa banyak aplikasi Anda tergantung pada mendapatkan arti kata dalam konteks yang benar. Jika Anda melakukan terjemahan mesin, Anda mungkin ingin lemmatisasi agar tidak salah menerjemahkan kata. Jika Anda melakukan pencarian informasi lebih dari satu miliar dokumen dengan 99% dari pertanyaan Anda mulai dari 1-3 kata, Anda bisa puas dengan stemming.
Sedangkan untuk NLTK, WordNetLemmatizer tidak menggunakan bagian dari pidato, meskipun Anda harus menyediakannya (jika tidak default ke kata benda). Melewati "merpati" dan "v" menghasilkan "menyelam" sementara "merpati" dan "n" menghasilkan "merpati".
sumber
Penjelasan berdasarkan contoh tentang perbedaan antara lemmatization dan stemming:
Lemmatization menangani pencocokan "mobil" ke "mobil" bersama dengan pencocokan "mobil" ke "mobil".
Stemming menangani pencocokan "mobil" ke "mobil" .
http://www.ideaeng.com/stemming-lemmatization-0601
sumber
ianacl
tetapi saya pikir Stemming adalah peretasan kasar yang digunakan orang untuk mendapatkan semua bentuk kata yang berbeda hingga ke bentuk dasar yang tidak perlu menjadi kata yang sah sendiri.
Sesuatu seperti Porter Stemmer dapat menggunakan regex sederhana untuk menghilangkan akhiran kata umum
Lemmatization membawa kata ke bentuk dasar yang sebenarnya, dalam kasus kata kerja tidak beraturan, mungkin tidak terlihat seperti kata input
Sesuatu seperti Morpha yang menggunakan FST untuk membawa kata benda dan kata kerja ke bentuk dasar mereka
sumber
Stemming hanya menghilangkan atau menghilangkan beberapa karakter terakhir dari sebuah kata, sering kali mengarah pada makna dan ejaan yang salah. Lemmatization mempertimbangkan konteks dan mengubah kata menjadi bentuk dasarnya yang bermakna, yang disebut Lemma. Terkadang, kata yang sama dapat memiliki beberapa Lemma berbeda. Kita harus mengidentifikasi tag Part of Speech (POS) untuk kata dalam konteks spesifik itu. Berikut adalah contoh untuk menggambarkan semua perbedaan dan kasus penggunaan:
sumber
Stemming adalah proses menghilangkan beberapa karakter terakhir dari kata yang diberikan, untuk mendapatkan bentuk yang lebih pendek, bahkan jika bentuk itu tidak memiliki arti.
Contoh,
Stemming dapat dilakukan dengan sangat cepat.
Lemmatization di sisi lain, adalah proses mengubah kata yang diberikan ke bentuk dasar itu sesuai dengan arti kamus kata.
Contoh,
Lemmatization membutuhkan lebih banyak waktu daripada membendung.
sumber