Algoritme klasifikasi mana yang dicoba untuk mengklasifikasikan data teks ke dalam 300 kategori

8

Saya memiliki 40000 baris data teks dari domain perawatan kesehatan. Data memiliki satu kolom untuk teks (2-5 kalimat) dan satu kolom untuk kategorinya. Saya ingin mengklasifikasikannya menjadi 300 kategori. Beberapa kategori independen sedangkan beberapa agak terkait. Distribusi data di antara kategori tidak seragam baik yaitu beberapa kategori (sekitar 40 di antaranya) memiliki lebih sedikit data sekitar 2-3 baris.

Saya melampirkan kemungkinan log untuk setiap kelas / kategori. (ATAU distribusi kelas) di sini. Logaritma kelas probabilitas sebelumnya (distribusi kelas log data)

Alok Nayak
sumber
2
Butuh informasi lebih. Apa hubungan antar kategori? Apakah kategorinya saling eksklusif? Apakah ada tumpang tindih kategoris?
Ryan J. Smith
3
Selamat datang di Ilmu Data! Saat ini pertanyaan Anda berkualitas sangat rendah. Anda tidak dapat mengharapkan jawaban berkualitas tanpa mengajukan pertanyaan yang dijelaskan dengan baik. Tolong, berikan lebih banyak informasi (deskripsi data yang lebih baik, latar belakang Anda, bahasa pemrograman, pendekatan yang diteliti, dll.).
Wojciech Walczak

Jawaban:

8

Secara umum, titik awal yang layak untuk masalah seperti ini adalah klasifikasi Naive Bayes (NB) menggunakan model bag of words sederhana. Berikut adalah beberapa slide yang menggambarkan NB sebagaimana diterapkan pada pemrosesan bahasa alami . Tidak ada yang istimewa tentang pendekatan ini, tetapi sangat mudah diterapkan dan akan memberi Anda titik awal untuk berkembang.

Setelah Anda menemukan beberapa hasil awal dengan asumsi independensi antara fitur Anda dan label output Anda, Anda mungkin akan lebih tahu di mana model itu lemah. Sejak saat itu Anda dapat menerapkan beberapa fitur rekayasa (mungkin TF-IDF ) serta beberapa pemrosesan pos untuk menangani sampel yang ditugaskan ke kategori terkait.

Ryan J. Smith
sumber
1
Saya menghargai jawaban dan referensi Anda di sini, bahkan jika pertanyaannya tidak jelas. Ini sangat membantu bagi saya dan mungkin lebih banyak orang yang baru saja mengompol juga. Terima kasih! :)
Brian Topping
Terima kasih, saya sudah mulai bekerja dengan bayes naif dan rekayasa fitur secara umum. Adakah hal lain selain bay yang naif yang harus saya coba?
Alok Nayak
Yah, Anda masih belum menawarkan detail yang sangat banyak tentang data itu sendiri atau spesifik dari apa yang telah Anda lakukan, jadi sangat sulit untuk memberi Anda saran spesifik. Yang terbaik yang bisa saya katakan adalah mempertimbangkan memasukkan beberapa struktur berurutan ke dalam model dan fitur Anda baik melalui penggunaan bigrams atau model markov / mesin keadaan terbatas.
Ryan J. Smith