Sarankan set data pelatihan penggolong teks

9

Kumpulan data mana yang tersedia secara bebas yang dapat saya gunakan untuk melatih classifier teks?

Kami mencoba untuk meningkatkan keterlibatan pengguna kami dengan merekomendasikan konten yang paling terkait untuknya, jadi kami pikir. Jika kami mengklasifikasikan konten kami berdasarkan kantong kata yang telah ditentukan, kami dapat merekomendasikan kepadanya untuk melibatkan konten dengan mendapatkan umpan baliknya pada jumlah acak posting yang sudah diklasifikasikan sebelum.

Kita dapat menggunakan info ini untuk merekomendasikan baginya pulsa berlabel kelas-kelas itu. Tetapi kami menemukan Jika kami menggunakan sekumpulan kata yang tidak ditentukan yang terkait dengan konten kami, vektor fitur akan penuh dengan nol, juga kategori mungkin tidak relevan dengan konten kami. jadi karena alasan itu kami mencoba solusi lain yang akan mengelompokkan konten kami dan tidak mengklasifikasikannya.

Terima kasih :)

Abdelmawla
sumber
1
Saya pikir rincian lebih lanjut tentang masalah Anda diperlukan sebelum ada yang bisa merekomendasikan dataset.
Neil Slater
3
Untuk tujuan apa? Penyaringan spam? Analisis sentimen? Tanpa tujuan yang jelas, sangat sulit untuk menyarankan dataset.
lsdr
@ ldr Melihat jawabannya, sepertinya pertanyaan itu tidak perlu lebih detail.
Amir Ali Akbari
@AmirAliAkbari Saya pikir mereka datang setelah diedit. Saya menarik kembali suara dekat saya.
Rubens
Tempat yang lebih tepat untuk pertanyaan ini adalah opendata.stackexchange.com
sheldonkreger

Jawaban:

14

Beberapa set data standar untuk klasifikasi teks adalah grup 20-Berita, Reuters (dengan 8 dan 52 kelas) dan WebKb. Anda dapat menemukan semuanya di sini .

Debat
sumber
Terima kasih :), saya sudah mengunjunginya sebelumnya tetapi saya menemukan klasifikasi itu lemah tidak cukup abstrak atau mungkin tidak terkait dengan konten saya
Abdelmawla
5

Ada banyak kumpulan data yang dibuat gratis oleh UC Irvine untuk dimainkan di sini . Di antara set data itu, ada beberapa lusin set data tekstual yang dapat membantu Anda dengan tugas Anda.

Itu adalah jenis set data generik, jadi tergantung pada tujuan Anda, itu tidak boleh digunakan sebagai satu-satunya data untuk melatih model Anda, atau model Anda - selagi bisa berfungsi - tidak akan menghasilkan hasil yang berkualitas.

lsdr
sumber
1

Terlepas dari saran di atas, ada pdf yang sangat berguna - Koleksi Teks Benchmarking untuk Klasifikasi dan Clustering yang berisi berbagai set data beserta tolok ukur untuk menguji model kami. Ini termasuk 20ng Collection, Reuters dan banyak set data yang disarankan di atas. Saya harap ini membantu!

Hima Varsha
sumber