Saya mencoba membuat model cerdas yang dapat memindai serangkaian kata atau string dan mengklasifikasikannya sebagai nama, nomor ponsel, alamat, kota, negara, negara, dan entitas lainnya menggunakan pembelajaran mesin atau pembelajaran mendalam.
Saya telah mencari pendekatan, tetapi sayangnya saya tidak menemukan pendekatan yang harus diambil. Saya telah mencoba dengan model tas kata dan menyematkan kata sarung tangan untuk memprediksi apakah string adalah nama atau kota dll.
Tapi, saya tidak berhasil dengan model kantong kata-kata dan dengan GloVe ada banyak nama yang tidak tercakup dalam contoh embedding: - lauren hadir di Glove dan laurena tidak
Saya memang menemukan posting ini di sini , yang memiliki jawaban yang masuk akal tetapi saya tidak bisa menggunakan pendekatan yang digunakan untuk menyelesaikan masalah itu selain dari kenyataan bahwa NLP dan SVM digunakan untuk menyelesaikannya.
Ada saran yang dihargai
Terima kasih dan salam, Sai Charan Adurthi.
sumber
Jawaban:
Anda dapat menerapkan gram karakter - Secara intuitif, mungkin ada perbedaan besar dalam set karakter antara nomor telepon dan alamat email. dan kemudian meneruskan vektor karakter gram ke SVM untuk membuat prediksi. Anda bisa menerapkan ini menggunakan sklearn menggunakan ekstraktor fitur di bawah ini.
TfIdfVectorizer (analyzer = 'character')
CountVectorizer (analyzer = 'character')
Validasi silang pada kisaran ngram dan variabel slack dari SVM untuk menyempurnakan model Anda.
sumber
Menerapkan label kategori umum ke kata-kata biasanya disebut Named-entity recognition (NER) .
NER dapat dilakukan dengan aturan statis (misalnya, ekspresi reguler) atau aturan yang dipelajari (misalnya, pohon keputusan). Aturan-aturan ini sering rapuh dan tidak digeneralisasi. Conditional Random Fields (CRF) seringkali merupakan solusi yang lebih baik karena mereka dapat memodelkan keadaan laten bahasa. Performa terkini di NER dilakukan dengan kombinasi model Deep Learning .
The Entity Recognizer Stanford Dinamakan dan spacy adalah paket untuk melakukan NER.
sumber