Saya mendapat kesan bahwa banyak hal yang dilakukan di sini sangat heuristik. Bahkan, kebanyakan orang tampaknya menerapkan ini pada <120 karakter pernyataan twitter. Mungkin hasilnya (walaupun tidak dihitung dengan cara ini) tidak jauh lebih baik daripada menghitung kata "positif" dan "negatif" dengan informasi posisi litte ("A lebih baik dari B" = positif untuk A, negatif untuk B)
Ketika Anda kemudian melihat perusahaan membeli feed twitter lengkap (itu berapa mbit per detik?) Dan mengklaim untuk melakukan analisis sentimen tentang ini, ini serius membuat saya bertanya-tanya apakah ada validitas statistik di sini. Tidak heran misalnya Yahoo gagal memprediksi prediksi pemilihan untuk South Carolina: http://www.technologyreview.com/web/39487/
Orang-orang adalah cara untuk bangga dan tertarik hanya karena sama sekali dapat memproses jumlah data, mereka tampaknya benar-benar mengabaikan validasi kinerja mereka.
Maaf menjadi pesimis tentang keadaan seni ini.
Memiliki QUIT - Anony-Mousse
sumber