Kumpulan data mana yang tersedia secara bebas yang dapat saya gunakan untuk melatih classifier teks?
Kami mencoba untuk meningkatkan keterlibatan pengguna kami dengan merekomendasikan konten yang paling terkait untuknya, jadi kami pikir. Jika kami mengklasifikasikan konten kami berdasarkan kantong kata yang telah ditentukan, kami dapat merekomendasikan kepadanya untuk melibatkan konten dengan mendapatkan umpan baliknya pada jumlah acak posting yang sudah diklasifikasikan sebelum.
Kita dapat menggunakan info ini untuk merekomendasikan baginya pulsa berlabel kelas-kelas itu. Tetapi kami menemukan Jika kami menggunakan sekumpulan kata yang tidak ditentukan yang terkait dengan konten kami, vektor fitur akan penuh dengan nol, juga kategori mungkin tidak relevan dengan konten kami. jadi karena alasan itu kami mencoba solusi lain yang akan mengelompokkan konten kami dan tidak mengklasifikasikannya.
Terima kasih :)
sumber
Jawaban:
Beberapa set data standar untuk klasifikasi teks adalah grup 20-Berita, Reuters (dengan 8 dan 52 kelas) dan WebKb. Anda dapat menemukan semuanya di sini .
sumber
Salah satu koleksi tes yang paling banyak digunakan untuk penelitian kategorisasi teks (tautan di bawah). Saya sudah menggunakan banyak kali. Nikmati eksplorasi Anda :)
http://www.daviddlewis.com/resources/testcollections/reuters21578/ atau http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
sumber
Ada banyak kumpulan data yang dibuat gratis oleh UC Irvine untuk dimainkan di sini . Di antara set data itu, ada beberapa lusin set data tekstual yang dapat membantu Anda dengan tugas Anda.
Itu adalah jenis set data generik, jadi tergantung pada tujuan Anda, itu tidak boleh digunakan sebagai satu-satunya data untuk melatih model Anda, atau model Anda - selagi bisa berfungsi - tidak akan menghasilkan hasil yang berkualitas.
sumber
Terlepas dari saran di atas, ada pdf yang sangat berguna - Koleksi Teks Benchmarking untuk Klasifikasi dan Clustering yang berisi berbagai set data beserta tolok ukur untuk menguji model kami. Ini termasuk 20ng Collection, Reuters dan banyak set data yang disarankan di atas. Saya harap ini membantu!
sumber