Klasifikasi percakapan berdasarkan konten

8

Saya ingin dapat merancang classifier yang dapat membedakan berbagai jenis percakapan (tidak perlu menceritakan apa pun tentang suasana hati, ketulusan, atau hasil, yang agak terlalu jauh diambil).

Untuk mengetahui, misalnya, bahwa di antara 50 sampel percakapan, 10 melibatkan kedua belah pihak untuk mencari informasi tentang acara di masa depan, 30 tampaknya tidak memiliki tujuan, dan 10 melibatkan satu pihak untuk mencari informasi dari pihak lain tentang peristiwa masa lalu (sungguh-sungguh algoritma akan mengklasifikasikan ini sebagai tipe I, II, atau III tanpa memperhatikan keadaan sebenarnya).

Dengan kata lain, urutan pembicara akan penting bersama dengan konten, mungkin membantu seiring dengan menyemai algoritma dengan kata kunci tertentu.

Apakah ada sistem klasifikasi yang dapat melakukan tugas ini dengan tingkat presisi yang cukup tinggi?

jonsca
sumber
1
untuk memperjelas, apakah ini data teks, atau data audio?
tdc
1
@tdc Data teks, maaf
jonsca

Jawaban:

4

Ini adalah bagaimana saya akan mendekatinya. Anda benar-benar perlu memeriksa apakah teks di kelas I atau III (kalau tidak itu akan menjadi kelas II).

  • Pertama, tentukan sekumpulan kata untuk kelas I dan III. Anda dapat melakukannya secara manual
  • Untuk setiap teks, hitung tf-idf untuk kata-kata dalam dua kelas ini dan jumlahkan (dapatkan dua jumlah).
  • Jika beberapa dari dua jumlah ini di atas beberapa ambang yang telah ditentukan maka itu termasuk dalam kelas itu.

Jika Anda memiliki dataset pembelajaran yang cukup besar, Anda dapat dengan mudah mengetahui apa dua kantong kata, serta dua ambang batas untuknya.

vonPetrushev
sumber
Saya hanya akan memeriksa tf-idf dari membaca pertanyaan Anda. Kedengarannya menjanjikan.
jonsca