Beberapa algoritma pembelajaran mesin yang populer seperti Regresi Logistik atau Neural networks memerlukan inputnya untuk numerik.
Yang saya tertarik adalah bagaimana Anda membuat algoritma ini bekerja pada input non-numerik (seperti string pendek).
Sebagai contoh, katakanlah kita sedang membangun sistem klasifikasi email (spam / bukan spam), di mana salah satu fitur input adalah alamat pengirim.
Untuk dapat menggunakan algoritma pembelajaran, kita perlu merepresentasikan alamat pengirim sebagai nomor. Salah satu caranya adalah dengan memberi nomor pada pengirim 1..n. Rangkaian pelatihan kami mungkin akan terlihat seperti ini:
Ini tidak akan bekerja, karena algoritma seperti regresi logistik atau jaringan saraf mempelajari pola dalam data input, sedangkan dalam contoh kami, output terlihat benar-benar acak untuk algoritma. Memang, sekali di kelas universitas, kami mencoba untuk melatih jaringan saraf pada dataset yang terlihat seperti ini dan jaringan tidak dapat mempelajari apa pun (kurva belajar datar).
Apakah Anda akan menggunakan regresi logistik atau jaringan saraf pada contoh ini? Jika ya, dengan cara apa? Jika tidak, apa cara yang baik untuk mengklasifikasikan email berdasarkan alamat pengirim?
Jawaban yang sempurna akan membahas contoh klasifikasi email serta menangani string pendek dalam ML secara umum.
sumber