Saya memiliki daftar kata-kata, milik berbagai kategori yang ditentukan sendiri. Setiap kategori memiliki pola sendiri (misalnya satu memiliki panjang tetap dengan karakter khusus, yang lain ada karakter yang hanya terjadi dalam kategori "kata", ...).
Sebagai contoh:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...
Saya mencari teknik pembelajaran mesin untuk mempelajari pola ini sendiri, berdasarkan data pelatihan. Saya sudah mencoba mendefinisikan beberapa variabel prediktor (misalnya panjang kata, jumlah karakter khusus, ...) sendiri dan kemudian menggunakan Neural-Networks untuk mempelajari dan memprediksi kategori. Tapi itu sebenarnya bukan yang saya inginkan. Saya ingin teknik untuk mempelajari pola masing-masing kategori sendiri - bahkan untuk mempelajari pola yang tidak pernah saya pikirkan.
Jadi saya memberikan data pembelajaran algoritma (terdiri dari contoh kata-kategori) dan ingin mempelajari pola untuk setiap kategori untuk memprediksi nanti kategori dari kata yang sama atau sama.
Apakah ada cara canggih untuk melakukannya?
Terima kasih atas bantuan Anda
Jawaban:
Bisakah masalah Anda disajikan kembali karena ingin menemukan ekspresi reguler yang akan cocok dengan string di setiap kategori? Ini adalah masalah "generasi regex", bagian dari masalah induksi tata bahasa (lihat juga situs web Alexander Clark ).
Masalah ekspresi reguler lebih mudah. Saya bisa mengarahkan Anda ke kode frak dan RegexGenerator . The RegexGenerator secara online ++ memiliki referensi untuk makalah akademis mereka pada masalah.
sumber
Anda dapat mencoba jaringan saraf berulang, di mana input Anda adalah urutan huruf dalam kata, dan output Anda adalah kategori. Ini sesuai dengan kebutuhan Anda sehingga Anda tidak memberikan kode pada fitur apa pun.
Namun agar metode ini benar-benar berfungsi, Anda akan memerlukan kumpulan data pelatihan yang cukup besar.
Anda dapat merujuk Pelabelan Urutan Supervisi dengan Jaringan Syaraf Berulang oleh Alex Graves bab 2 untuk detail lebih lanjut.
Ini adalah tautan ke pracetak
sumber