Input string dalam Pembelajaran Mesin

8

Beberapa algoritma pembelajaran mesin yang populer seperti Regresi Logistik atau Neural networks memerlukan inputnya untuk numerik.

Yang saya tertarik adalah bagaimana Anda membuat algoritma ini bekerja pada input non-numerik (seperti string pendek).

Sebagai contoh, katakanlah kita sedang membangun sistem klasifikasi email (spam / bukan spam), di mana salah satu fitur input adalah alamat pengirim.

Untuk dapat menggunakan algoritma pembelajaran, kita perlu merepresentasikan alamat pengirim sebagai nomor. Salah satu caranya adalah dengan memberi nomor pada pengirim 1..n. Rangkaian pelatihan kami mungkin akan terlihat seperti ini:

input untuk pembelajaran mesin

Ini tidak akan bekerja, karena algoritma seperti regresi logistik atau jaringan saraf mempelajari pola dalam data input, sedangkan dalam contoh kami, output terlihat benar-benar acak untuk algoritma. Memang, sekali di kelas universitas, kami mencoba untuk melatih jaringan saraf pada dataset yang terlihat seperti ini dan jaringan tidak dapat mempelajari apa pun (kurva belajar datar).

Apakah Anda akan menggunakan regresi logistik atau jaringan saraf pada contoh ini? Jika ya, dengan cara apa? Jika tidak, apa cara yang baik untuk mengklasifikasikan email berdasarkan alamat pengirim?

Jawaban yang sempurna akan membahas contoh klasifikasi email serta menangani string pendek dalam ML secara umum.

Martin Konicek
sumber

Jawaban:

4

Salah satu model yang populer adalah model Bag of Words

Juga, Anda dapat memodelkan kata-kata sebagai bilangan bulat .. mereka memiliki 'metrik jarak relatif' untuk itu, dan menangkap esensi dari proses klasifikasi. Namun downside itu adalah langkah preprocessing adalah mahal dan juga Anda harus memiliki beberapa pengetahuan domain.

Metrik jarak yang cukup terkenal adalah jarak Levenshtein yang didasarkan pada jumlah pengeditan karakter tunggal. misalnya. itu adalah,d(walk,talk)<d(walk,plod).

Metrik tergantung pada konteks proses klasifikasi .. misalnya metrik jarak Anda untuk mengklasifikasikan kata-kata berima akan berbeda dari yang dirancang untuk mengklasifikasikan sinonim / kata-kata yang menyampaikan makna yang sama. Untuk daftar metrik string, lihat artikel wikipedia ini .

Anda juga dapat melihat makalah ulasan ini .

Subhayan
sumber