Saat ini saya sedang membuat skrip yang menyenangkan, yang pada dasarnya cocok dengan frasa yang diberikan dan memberikan respons yang telah ditentukan berdasarkan pada match-point. Anda dapat memintanya untuk mengambil beberapa informasi berdasarkan umpan langsung, menjalankan tugas, memberi tahu anekdot atau hanya mengobrol dengannya.
Saya sudah memiliki deteksi bawaan untuk badwords, caps lock, atau keduanya. Program ini memiliki nama perempuan dan saya berusaha sedekat mungkin untuk menjadi seorang gadis-gadis, pada istilah logika (misalnya: semua orang tahu bahwa sebagian besar gadis-gadis suka mengambil 700ms untuk menanggapi pertanyaan, tentu saja bercanda). Jadi, inilah sedikit contohnya:
Klien: APA MASALAH ANDA?
Kiku: JANGAN GUNAKAN BAHWA DENGAN SAYA!
Klien: #### Anda
Kiku: mengapa Anda begitu jahat padaku: /
Namun, saya benar-benar ingin menambahkan fitur sarkasme ke dalamnya. Jadi jika Anda menulis sesuatu dengan sarkasme, maka dia akan mendeteksi dan meresponsnya. Sekarang ini adalah bagian yang sulit, Bagaimana Anda mengajar naskah, apa itu sarkasme?
Bagi saya lebih spesifik. Apa kata sarkastik yang paling umum digunakan saat ini? Atau bagaimana cara mendapatkan statistik itu? Bagaimana saya bisa membuat naskah memahami konteks kalimat yang diberikan?
MEMPERBARUI
Karena pertanyaan ini semakin banyak gembar-gembor, saya pikir hal-hal harus dihapus sedikit lebih. Sangat jelas, bahwa membuat naskah sepenuhnya mendeteksi sarkasme pada dasarnya tidak mungkin. Setidaknya dalam hal yang masuk akal. Namun, saya percaya bahwa sejumlah kemungkinan sarkasme dapat dideteksi.
Saat ini saya telah membuatnya sejauh ini, sehingga skrip saya dapat mendeteksi sarkasme yang sangat terbatas. Saya telah menetapkan beberapa kata-kata sarkastik yang umum (namun, hanya saja kata-kata itu tidak berguna). Misalnya: seperti, apa pun, ya, benar dan hebat. Dan kemudian pertama cocok, hal-hal sederhana, seperti huruf besar dan dikutip: THANKS you are so smart
atau oh you are so "SMART"
.
Karena fungsi utama skrip adalah untuk melakukan tugas atau mengambil informasi, dan kata penutup itu akan menanyakan apakah itu yang Anda maksudkan. Kemudian saya berpikir, menambahkan "terima kasih" sebagai variabel khusus. Jadi yeah thanks
atau whatever thanks
akan memicu kemungkinan sarkasme, dan skrip akan bertanya kepada Anda: "Apakah saya mendeteksi sarkasme?" Taruhan terbaik Anda adalah dengan mengatakan "maaf", jika tidak maka akan menambah titik peringatan dan jika batas tercapai - itu akan mulai mengabaikan Anda.
Karena algoritma yang sangat sederhana ini tampaknya benar-benar berfungsi, maka ide ini memiliki masa depan, tentu saja setelah banyak penyetelan dan penyesuaian. Namun, seseorang yang jauh lebih pintar akan membuat perangkat lunak open-source dengan ide yang sama dalam pikiran. Maka fitur ini dapat dikaitkan dengan banyak fungsi di web. Layanan pelanggan mungkin akan mendapat manfaat paling besar, namun, perangkat lunak jenis ini juga dapat digunakan untuk mendeteksi konten yang "dapat di-flag".
sumber
Jawaban:
Jika Anda memiliki sistem pemrosesan bahasa alami lengkap dan basis data fakta ala sistem IBM Watson, Anda mungkin dapat menandai beberapa pernyataan sebagai kemungkinan sarkasme. Misalnya, "Saya mendengar ibumu menderita kanker dan Anda baru saja dipecat!" "Ya, bukankah hidup ini indah!" dapat ditandai karena dapat mengenali bahwa mendapatkan kanker dan kehilangan pekerjaan umumnya tidak digambarkan sebagai pengalaman positif.
Saya berasumsi Anda tidak memiliki sumber daya untuk mengumpulkan sistem nilai Watson. Anda bisa menyusun database frasa sarkastik yang umum digunakan, dan kemudian menggunakan semacam algoritma pencocokan teks antara pernyataan target dan database sarkasme. Saya harus menebak bahwa itu tidak akan sangat efektif karena semua frasa yang digunakan secara sarkastik digunakan dengan lebih tulus. Misalnya "Itu X yang bagus." biasanya digunakan dengan tulus, tetapi kadang-kadang digunakan secara sarkastik.
Sarkasme sangat erat kaitannya dengan penipuan. Ini tidak biasa bagi seseorang yang menggunakan sarkasme untuk menyangkalnya ketika ditentang, dan pilihan kata-kata mereka membuat penolakan mungkin terjadi. Saya menduga ini berarti bahwa pendeteksi sarkasme yang baik mungkin merupakan masalah yang sama sulitnya dengan program percakapan yang lulus tes Turing.
sumber
<Sarcasm>
</Sarcasm>
Jujur, saya tidak tahu bagaimana harus melakukannya. Saya pikir hanya sekitar 30% orang di dunia nyata "mendapatkan" sarkasme sejak awal, jadi membuat komputer mengenalinya dan memahaminya terdengar seperti tugas yang sangat sulit.
Sunting Berdasarkan pada komentar pada posting asli saya, saya percaya bahwa saya telah dengan sempurna menggambarkan kesulitan tugas yang diminta. Ya, paruh pertama posting saya sarkastik. Saya bahkan menekankan fakta itu dengan menggunakan tag mark-up yang dibuat-buat. Dengan memposting komentar sarkastik tentang solusi sepele untuk masalah yang sangat sulit, dan sarkasme yang ditafsirkan sebagai "tidak membantu" memunculkan pertanyaan ini:
Jika Anda tidak dapat mengenali sarkasme tertulis, lalu bagaimana Anda akan menulis algoritma yang mengenalinya?
Oh, dan Anna jika seseorang memasukkan istilah "Saya pikir ..." dalam kalimat mereka, biasanya menunjukkan bahwa itu adalah pendapat yang sedang disampaikan, belum tentu diteliti fakta kerasnya.
sumber
Masalah deteksi sarkasme adalah masalah terbuka dalam linguistik komputasi - Anda akan lebih baik dilayani dengan mencari di Google scholar daripada stackexchange untuk hal-hal seperti itu. Namun, ada beberapa kemajuan yang dibuat pada masalah ini. Untuk sarkasme yang diucapkan , pengenal yang kuat dapat dibangun dengan menggunakan "fitur spektral dan kontekstual" yang (penulis klaim) mendeteksi sarkasme dan juga annotator manusia. Penulis makalah ini mengklaim bahwa teks mentah tidak cukup untuk mendeteksi sarkasme - memang, mereka mendapatkan hasil yang lebih baik dengan mengabaikan kata-kata aktual yang diucapkan.
Tsur et al. juga melaporkan beberapa hasil menarik dalam deteksi sarkasme tekstual tahun lalu dengan algoritma SASI mereka . Mereka juga melaporkan beberapa temuan tindak lanjut tambahan di makalah lain.
Bagaimanapun, ini adalah ujung tombak penelitian bahasa komputasi; jangan berharap siapa pun memberikan Anda libsarcasm di piring perak. Anda akan membutuhkan set data pelatihan besar dan banyak waktu luang untuk mengubah detektor sarkasme Anda - dan bahkan pada saat itu, ketepatan 77% (seperti yang dilaporkan dalam makalah SASI) tidak cukup untuk menolak posting yang hanya didasarkan pada bendera sarkasme.
sumber
Saya tidak berpikir jawaban ini adalah metode pendekatan yang sangat realistis, tetapi jika Anda memiliki sumber daya untuk melakukannya, saya yakin itu mungkin. Pertimbangkan proyek reCaptcha google yang menggunakan manusia untuk menguraikan kata-kata yang tidak dapat dibaca komputer ( "Pelajari Lebih Lanjut Halaman Recaptcha" ). Saya percaya masalahnya sama, yaitu Anda mencoba mendapatkan mesin untuk mengetahui sesuatu yang setidaknya sudah dilakukan manusia dengan lebih baik .
Bayangkan Anda memiliki sumber daya untuk meminta jutaan orang mengidentifikasi sarkasme kepada Anda dalam konteks percakapan yang diketik. Bayangkan bahwa Anda dapat meminta banyak orang untuk menyampaikan kepada Anda saat yang tepat dalam percakapan ketika sarkasme terwujud dan sedikit dari percakapan sebelum menyadari bahwa seseorang perlu menandai identifikasi itu. Ini dapat disimpan dalam database, katakanlah, yang dapat diakses oleh program Anda. Kemudian, saat pengguna mengetik percakapan kepada Anda, basis data dapat difilter untuk percakapan "serupa".
Bagaimana mengevaluasi kesamaan adalah sesuatu untuk dipikirkan, tetapi yang saya percaya mungkin sudah ada penelitian yang sudah ada. Saya percaya ini akan sangat mirip dengan teori di balik koreksi kesalahan ejaan. Either way mungkin akan turun ke nilai probabilistik bahwa percakapan yang diketik sebenarnya sarkastik, dan pada titik tertentu ambang harus disediakan.
Saya juga menyukai ide Anda untuk mengajukan pertanyaan, "Apakah itu sarkasme?" kepada pengguna dan kemudian menggunakan respons mereka untuk mencapai keputusan yang lebih akurat.
Saya berharap jawaban saya tidak sia-sia dan saya berharap Anda beruntung dalam upaya ini.
-Asaf
sumber
Deteksi sarkasme dalam linguistik komputasi (alias pemrosesan bahasa alami) adalah masalah yang sangat sulit. Ini pada dasarnya masalah klasifikasi di mana model harus dilatih terlebih dahulu. Masalah serupa untuk menemukan peserta ganda (file PDF) baru-baru ini diteliti dan diterbitkan. Teknik untuk kedua masalah tersebut sebanding.
sumber
2 sen saya:
Tanyakan kepada psikolog tentang cara mengenali sarkasme dalam frasa, dengan info yang membandingkannya dengan input.
Tapi itu akan menjadi proyek yang sangat sulit, dengan upaya yang digunakan di dalamnya, Anda bisa melakukan OS terbaik di dunia pasti: P
sumber