Katakanlah saya memiliki banyak baris untuk masalah klasifikasi:
Di mana adalah fitur / prediktor dan Y adalah kelas yang dimiliki kombinasi fitur baris.
Banyak kombinasi fitur dan kelasnya diulang dalam dataset, yang saya gunakan agar sesuai dengan classifier. Saya hanya ingin tahu apakah dapat menghapus duplikat (pada dasarnya saya melakukan group by X1 ... XN Y
dalam SQL)? Terima kasih.
PS:
Ini hanya untuk dataset kehadiran biner di mana nilai kelas cukup miring