Saya harus berurusan dengan masalah klasifikasi teks. Perayap web merayapi laman web dari domain tertentu dan untuk setiap laman web saya ingin mengetahui apakah itu milik hanya satu kelas tertentu atau tidak. Yaitu, jika saya menyebut kelas ini Positif , setiap laman web yang dirayapi termasuk kelas Positif atau kelas Non Positif .
Saya sudah memiliki satu set pelatihan besar halaman web untuk kelas Positive . Tetapi bagaimana cara membuat set pelatihan untuk kelas Non-Positif yang representatif mungkin? Maksudku, pada dasarnya aku bisa menggunakan semuanya untuk kelas itu. Bisakah saya mengumpulkan beberapa halaman arbitrer yang jelas bukan milik kelas Positive ? Saya yakin kinerja algoritme klasifikasi teks (saya lebih suka memanfaatkan algoritme Naive Bayes) sangat bergantung pada laman web mana yang saya pilih untuk kelas Non-Positif .
Jadi apa yang harus saya lakukan? Bisakah seseorang tolong beri saya saran? Terima kasih banyak!
sumber
Jawaban:
The Spy EM algoritma memecahkan persis masalah ini.
Ide dasarnya adalah menggabungkan set positif Anda dengan sejumlah dokumen yang dirayapi secara acak. Anda awalnya memperlakukan semua dokumen yang dirayapi sebagai kelas negatif, dan mempelajari classifier bayes naif pada set itu. Sekarang beberapa dari dokumen yang dirayapi itu benar-benar akan menjadi positif, dan Anda dapat secara konservatif menandai ulang setiap dokumen yang mendapat skor lebih tinggi daripada yang terendah mencetak dokumen positif sejati. Kemudian Anda mengulangi proses ini sampai stabil.
sumber
Berikut ini adalah tesis yang bagus tentang klasifikasi satu kelas:
Tesis ini memperkenalkan metode Deskripsi Data Dukungan Vektor (SVDD), mesin vektor dukungan satu-kelas yang menemukan hipersphere minimal di sekitar data daripada hyperplane yang memisahkan data.
Tesis ini juga mengulas pengklasifikasi satu kelas lainnya.
sumber
Pelatihan yang baik membutuhkan data yang memberikan perkiraan yang baik dari probabilitas kelas individu. Setiap masalah klasifikasi melibatkan setidaknya dua kelas. Dalam kasus Anda, kelas kedua adalah siapa saja yang tidak termasuk kelas positif. Untuk membentuk batas keputusan yang baik dengan menggunakan Bayes atau metode bagus lainnya sebaiknya dilakukan dengan sebanyak mungkin data pelatihan yang dipilih secara acak dari kelas. Jika Anda melakukan seleksi non-acak, Anda mungkin mendapatkan sampel yang tidak benar-benar mewakili bentuk kepadatan / distribusi bersyarat kelas dan dapat menyebabkan pilihan batas keputusan yang buruk.
sumber
Saya setuju dengan Michael.
Mengenai pertanyaan Anda tentang pemilihan acak; ya: Anda harus memilih secara acak dari set 'positif' Anda yang saling melengkapi. Jika ada kebingungan bahwa 'positif' Anda mungkin tidak sepenuhnya didefinisikan sebagai 'positif murni', jika saya dapat menggunakan frasa itu, maka Anda juga dapat mencoba setidaknya beberapa jenis definisi yang cocok untuk positif sehingga Anda dapat kontrol pada variabel-variabel yang berpotensi menimbulkan kontaminasi pada definisi 'positif'. Dalam hal ini Anda juga harus mencocokkan variabel yang sama di sisi 'non-positif'.
sumber
Artikel yang mungkin menarik adalah:
Yang mengambil metode untuk menghubungkan teks ke satu set penulis dan memperluasnya untuk menggunakan kemungkinan bahwa penulis yang sebenarnya tidak ada dalam set kandidat. Bahkan jika Anda tidak menggunakan metode NSC, ide-ide dalam makalah ini mungkin berguna dalam memikirkan bagaimana untuk melanjutkan.
sumber