Saya memiliki 40000 baris data teks dari domain perawatan kesehatan. Data memiliki satu kolom untuk teks (2-5 kalimat) dan satu kolom untuk kategorinya. Saya ingin mengklasifikasikannya menjadi 300 kategori. Beberapa kategori independen sedangkan beberapa agak terkait. Distribusi data di antara kategori tidak seragam baik yaitu beberapa kategori (sekitar 40 di antaranya) memiliki lebih sedikit data sekitar 2-3 baris.
Saya melampirkan kemungkinan log untuk setiap kelas / kategori. (ATAU distribusi kelas) di sini.
machine-learning
classification
nlp
text-mining
Alok Nayak
sumber
sumber
Jawaban:
Secara umum, titik awal yang layak untuk masalah seperti ini adalah klasifikasi Naive Bayes (NB) menggunakan model bag of words sederhana. Berikut adalah beberapa slide yang menggambarkan NB sebagaimana diterapkan pada pemrosesan bahasa alami . Tidak ada yang istimewa tentang pendekatan ini, tetapi sangat mudah diterapkan dan akan memberi Anda titik awal untuk berkembang.
Setelah Anda menemukan beberapa hasil awal dengan asumsi independensi antara fitur Anda dan label output Anda, Anda mungkin akan lebih tahu di mana model itu lemah. Sejak saat itu Anda dapat menerapkan beberapa fitur rekayasa (mungkin TF-IDF ) serta beberapa pemrosesan pos untuk menangani sampel yang ditugaskan ke kategori terkait.
sumber