apa perbedaan antara klasifikasi teks dan model topik?

20

Saya tahu perbedaan antara pengelompokan dan klasifikasi dalam pembelajaran mesin, tapi saya tidak mengerti perbedaan antara klasifikasi teks dan pemodelan topik untuk dokumen. Dapatkah saya menggunakan pemodelan topik di atas dokumen untuk mengidentifikasi suatu topik? Bisakah saya menggunakan metode klasifikasi untuk mengklasifikasikan teks di dalam dokumen-dokumen ini?

Ali
sumber

Jawaban:

28

Klasifikasi Teks

Saya memberi Anda banyak dokumen, yang masing-masing memiliki label terlampir. Saya meminta Anda untuk mempelajari mengapa menurut Anda isi dokumen diberikan label-label ini berdasarkan kata-kata mereka. Lalu saya memberi Anda dokumen baru dan bertanya menurut Anda apa label masing-masing. Label itu memiliki arti bagi saya, bukan bagi Anda.

Pemodelan Topik

Saya memberi Anda banyak dokumen, tanpa label. Saya meminta Anda untuk menjelaskan mengapa dokumen memiliki kata-kata yang mereka lakukan dengan mengidentifikasi beberapa topik yang masing-masing "tentang". Anda memberi tahu saya topiknya, dengan memberi tahu saya berapa banyak masing-masingnya dalam setiap dokumen, dan saya memutuskan apa arti topik "jika ada.

Anda harus mengklarifikasi apa yang Anda saya dengan "mengidentifikasi satu topik" atau "mengklasifikasikan teks".

Sean Owen
sumber
10

Tapi saya tidak tahu apa perbedaan antara klasifikasi teks dan model topik dalam dokumen

Text Classificationadalah bentuk pembelajaran yang diawasi, oleh karena itu set kelas yang mungkin diketahui / didefinisikan sebelumnya , dan tidak akan berubah.

Topic Modelingadalah bentuk pembelajaran tanpa pengawasan (mirip dengan pengelompokan), sehingga serangkaian topik yang mungkin tidak diketahui apriori . Mereka didefinisikan sebagai bagian dari pembuatan model topik. Dengan algoritma non-deterministik seperti LDA, Anda akan mendapatkan topik berbeda setiap kali Anda menjalankan algoritma.

Text classificationsering melibatkan kelas yang saling eksklusif - anggap ini sebagai ember.
Tetapi tidak harus: mengingat jenis data input berlabel yang tepat, Anda dapat menetapkan serangkaian pengklasifikasi biner yang tidak saling eksklusif.

Topic modelingumumnya tidak saling eksklusif: dokumen yang sama dapat memiliki penyebaran probabilitasnya tersebar di banyak topik. Selain itu, ada juga metode pemodelan topik hirarkis.

Dapatkah saya menggunakan model topik untuk dokumen untuk mengidentifikasi satu topik nanti, bisakah saya menggunakan klasifikasi untuk mengklasifikasikan teks di dalam dokumen ini?

Jika Anda bertanya apakah Anda dapat mengambil semua dokumen yang ditetapkan untuk satu topik dengan algoritma pemodelan topik dan kemudian menerapkan classifier ke koleksi itu, maka ya, Anda tentu bisa melakukannya.

Saya tidak yakin itu masuk akal, meskipun: setidaknya, Anda harus memilih ambang batas untuk distribusi probabilitas topik di atas yang akan Anda sertakan dokumen dalam koleksi Anda (biasanya 0,05-0,1).

Bisakah Anda menguraikan kasus penggunaan Anda?

Omong-omong, ada tutorial yang bagus tentang pemodelan topik menggunakan perpustakaan MALLET untuk Java yang tersedia di sini: Memulai dengan Pemodelan Topik dan MALLET

Charlie Greenbacker
sumber
4

Model topik biasanya tidak diawasi . Ada "model topik yang diawasi" juga; tetapi bahkan kemudian mereka mencoba model topik dalam kelas .

Misalnya Anda mungkin memiliki kelas "sepakbola", tetapi mungkin ada topik di dalam kelas ini yang terkait dengan pertandingan atau tim tertentu.

Tantangan dengan topik adalah mereka berubah seiring waktu; pertimbangkan contoh kecocokan di atas. Topik seperti itu dapat muncul, dan menghilang lagi.

Erich Schubert
sumber