Untuk bereksperimen, kami ingin menggunakan Emoji yang tertanam di banyak Tweet sebagai data dasar / pelatihan untuk analisis senitmen kuantitatif sederhana. Tweet biasanya terlalu tidak terstruktur untuk NLP untuk bekerja dengan baik.
Bagaimanapun, ada 722 Emoji di Unicode 6.0, dan mungkin 250 Emoji lain akan ditambahkan di Unicode 7.0.
Apakah ada database (seperti misalnya SentiWordNet) yang berisi anotasi sentimen untuk mereka?
(Perhatikan bahwa SentiWordNet juga memungkinkan untuk makna yang ambigu . Pertimbangkan misalnya lucu , yang bukan hanya positif: "ini rasanya lucu" mungkin tidak positif ... sama akan berlaku ;-)
misalnya. Tapi saya tidak berpikir ini lebih sulit. untuk Emoji daripada untuk kata-kata biasa ...)
Juga, jika Anda memiliki pengalaman dalam menggunakannya untuk analisis sentimen, saya akan tertarik mendengarnya.
sumber
Jawaban:
Total 972 emoji tidak terlalu besar untuk tidak dapat melabeli mereka secara manual, tapi saya ragu mereka akan bekerja sebagai kebenaran dasar yang baik. Sumber-sumber seperti Twitter penuh dengan ironi, sarkasme, dan pengaturan rumit lainnya di mana simbol-simbol emosional (seperti emoji atau emoticon) memiliki arti yang berbeda dari interpretasi normal. Misalnya, seseorang dapat menulis "xxx menipu klien mereka, dan sekarang mereka menipu diri mereka sendiri! Ha ha ha!: D". Ini jelas merupakan komentar negatif, tetapi penulis senang melihat perusahaan xxx dalam kesulitan dan dengan demikian menambahkan emotikon positif. Kasus-kasus ini tidak sering, tetapi jelas tidak cocok untuk kebenaran dasar.
Pendekatan yang jauh lebih umum adalah dengan menggunakan emoticon sebagai benih untuk mengumpulkan kumpulan data aktual . Sebagai contoh, dalam makalah ini penulis menggunakan emoticon dan tag hash emosional untuk mengambil leksikon kata yang berguna untuk klasifikasi lebih lanjut.
sumber
Saya menemukan repo Github ini berguna (awal yang baik): https://github.com/wooorm/emoji-emotion Daftar emoji yang diberi peringkat valensi dengan bilangan bulat antara minus lima (negatif) dan ditambah lima (positif).
Lihat daftar unicode-emojis yang didukung: https://github.com/wooorm/emoji-emotion/blob/master/Support.md
sumber