apa teknik mesin / pembelajaran mendalam / nlp yang digunakan untuk mengklasifikasikan kata-kata yang diberikan sebagai nama, nomor ponsel, alamat, email, negara bagian, county, kota dll

9

Saya mencoba membuat model cerdas yang dapat memindai serangkaian kata atau string dan mengklasifikasikannya sebagai nama, nomor ponsel, alamat, kota, negara, negara, dan entitas lainnya menggunakan pembelajaran mesin atau pembelajaran mendalam.

Saya telah mencari pendekatan, tetapi sayangnya saya tidak menemukan pendekatan yang harus diambil. Saya telah mencoba dengan model tas kata dan menyematkan kata sarung tangan untuk memprediksi apakah string adalah nama atau kota dll.

Tapi, saya tidak berhasil dengan model kantong kata-kata dan dengan GloVe ada banyak nama yang tidak tercakup dalam contoh embedding: - lauren hadir di Glove dan laurena tidak

Saya memang menemukan posting ini di sini , yang memiliki jawaban yang masuk akal tetapi saya tidak bisa menggunakan pendekatan yang digunakan untuk menyelesaikan masalah itu selain dari kenyataan bahwa NLP dan SVM digunakan untuk menyelesaikannya.

Ada saran yang dihargai

Terima kasih dan salam, Sai Charan Adurthi.

Sai Charan Adurthi
sumber
4
Bukan jawaban, tetapi ini disebut Pengakuan Entitas Bernama. Pencarian dengan istilah-istilah tersebut dapat menghasilkan informasi yang bermanfaat.
kbrose
Terima kasih @kbrose, akan melihat teknik Pengakuan Entitas Bernama.
Sai Charan Adurthi

Jawaban:

1

Anda dapat menerapkan gram karakter - Secara intuitif, mungkin ada perbedaan besar dalam set karakter antara nomor telepon dan alamat email. dan kemudian meneruskan vektor karakter gram ke SVM untuk membuat prediksi. Anda bisa menerapkan ini menggunakan sklearn menggunakan ekstraktor fitur di bawah ini.

  1. TfIdfVectorizer (analyzer = 'character')

  2. CountVectorizer (analyzer = 'character')

Validasi silang pada kisaran ngram dan variabel slack dari SVM untuk menyempurnakan model Anda.

karthikbharadwaj
sumber
Terima kasih! @karthikbharadwaj. Saya saat ini bekerja menggunakan R, akan melihat ke sklearn dan melihat apakah itu berfungsi ..
Sai Charan Adurthi
@Sai Charan Adurthi - Harap pilih jika Anda merasa terbantu dan menerima jawaban jika Anda merasa terbantu.
karthikbharadwaj
tentu, pasti akan melakukannya setelah saya memeriksanya dengan Python ...
Sai Charan Adurthi
0

Menerapkan label kategori umum ke kata-kata biasanya disebut Named-entity recognition (NER) .

NER dapat dilakukan dengan aturan statis (misalnya, ekspresi reguler) atau aturan yang dipelajari (misalnya, pohon keputusan). Aturan-aturan ini sering rapuh dan tidak digeneralisasi. Conditional Random Fields (CRF) seringkali merupakan solusi yang lebih baik karena mereka dapat memodelkan keadaan laten bahasa. Performa terkini di NER dilakukan dengan kombinasi model Deep Learning .

The Entity Recognizer Stanford Dinamakan dan spacy adalah paket untuk melakukan NER.

Brian Spiering
sumber
Terima kasih, Dr. Brain! .. tetapi, saya ingin membangun sebuah model yang hanya membutuhkan satu kata atau satu kata string dan memprediksi apakah itu nama, alamat, dll. Saya telah mencoba NER menggunakan openNLP oleh Apache di R. Saya tidak cukup berhasil di dalamnya. Itu membutuhkan paragraf kata untuk memanfaatkan tata bahasa dan bagian-bagian pembicaraan, saya ingin memiliki model yang bahkan dapat memahami hal-hal seperti kode pos, kode pos dan kode negara. Apakah dengan pendekatan yang tepat di sini, Dr brain?
Sai Charan Adurthi
Anda seharusnya tidak memikirkan memiliki model umum tunggal. Anda harus membangun model untuk setiap jenis elemen. Misalnya, sebagian besar kode pos dapat ditemukan dengan ekspresi reguler. Juga konteks adalah raja, model yang diberikan satu kata akan melakukan pekerjaan yang buruk memprediksi NER. Lebih baik memiliki bagian teks yang besar.
Brian Spiering
Hai, @Dr. Otak, saya sudah mencoba dengan paket text2vec untuk R, saya telah menggunakan emblem Glove Word untuk memeriksa seberapa mirip kata-kata. Mis: Saya punya data kereta 1000 baris dengan kategori seperti nama, kota, negara bagian, negara dll., Menguji data dengan nilai yang berbeda. Saya menggunakan text2vec untuk membangun TCM untuk kereta, menguji nilai data, kemudian menyesuaikan model sarung tangan dengan TCM tersebut dan memeriksa kesamaan setiap kata dalam data uji untuk melatih data berdasarkan kategori menggunakan fungsi kesamaan cosinus. Tapi, saya tidak bisa mencapai akurasi yang baik dan bahkan variabel setiap kali saya menghasilkan model sarung tangan dan memeriksa kesamaan.
Sai Charan Adurthi
Terima kasih, Dr.Brian berfungsi jika saya menggunakan kalimat untuk mendapatkan konteks dan menggunakan NER. Tapi, saya ingin melakukannya hanya dengan menggunakan kata-kata dan melihat apakah ada model yang dapat mempelajari pola dari kata-kata.
Sai Charan Adurthi
Halo Brain, saya telah menggunakan Apache Open NLP untuk menggunakan model NER yang sudah dilatih sebelumnya. Dan ya itu bekerja pada kata-kata juga.
Sai Charan Adurthi