Hapus duplikat dari set pelatihan untuk klasifikasi

9

Katakanlah saya memiliki banyak baris untuk masalah klasifikasi:

X1,...XN,Y

Di mana adalah fitur / prediktor dan Y adalah kelas yang dimiliki kombinasi fitur baris.X1,...,XNY

Banyak kombinasi fitur dan kelasnya diulang dalam dataset, yang saya gunakan agar sesuai dengan classifier. Saya hanya ingin tahu apakah dapat menghapus duplikat (pada dasarnya saya melakukan group by X1 ... XN Ydalam SQL)? Terima kasih.

PS:

Ini hanya untuk dataset kehadiran biner di mana nilai kelas cukup miring

cs0815
sumber

Jawaban:

13

Tidak, itu tidak bisa diterima. Pengulangan itulah yang memberikan bobot bukti.

Jika Anda menghapus duplikat Anda, semanggi empat daun sama pentingnya dengan semanggi biasa, tiga daun, karena masing-masing akan terjadi sekali, sedangkan dalam kehidupan nyata ada semanggi empat daun untuk setiap 10.000 cengkeh biasa.

Bahkan jika prior Anda "cukup miring", seperti yang Anda katakan, tujuan dari set pelatihan adalah untuk mengumpulkan pengalaman kehidupan nyata, yang tidak akan Anda capai jika Anda kehilangan informasi frekuensi.

Carlos Accioly
sumber
1

14th

Ketika Anda menggunakan penggolong itu untuk data yang benar-benar baru, itu bisa berkinerja sangat buruk jika tidak ada sampel yang mirip dengan contoh 20% di atas.

Argumen : Orang mungkin berpendapat bahwa situasi ini mengarah ke dataset yang cacat tapi saya pikir ini berlaku untuk aplikasi kehidupan nyata.

Menghapus duplikat untuk Neural Networks, model Bayesian dll tidak dapat diterima.

Rakshit Kothari
sumber
Solusi layak lainnya adalah dengan menimbang duplikat yang lebih rendah berdasarkan frekuensi kemunculannya.
Rakshit Kothari