Saya sedang mengerjakan data yang sangat tidak seimbang. Dalam literatur, beberapa metode digunakan untuk menyeimbangkan kembali data menggunakan re-sampling (over-atau under-sampling). Dua pendekatan yang baik adalah:
SMOTE: Tehnik Sintetis Minoritas Berlebih ( SMOTE )
ADASYN: Pendekatan Sampling Sintetis Adaptif untuk Pembelajaran Ketidakseimbangan ( ADASYN )
Saya telah menerapkan ADASYN karena sifatnya yang adaptif dan kemudahan untuk diperluas ke masalah multi-kelas.
Pertanyaan saya adalah bagaimana menguji data oversampled yang dihasilkan oleh ADASYN (atau metode oversampling lainnya). Tidak jelas dalam dua makalah yang disebutkan bagaimana mereka melakukan percobaan mereka. Ada dua skenario:
1- Mencicipi keseluruhan dataset, lalu membaginya menjadi set pelatihan dan pengujian (atau validasi silang).
2- Setelah memisahkan dataset asli, lakukan oversampling hanya pada set pelatihan dan uji pada set tes data asli (dapat dilakukan dengan validasi silang).
Dalam kasus pertama hasilnya jauh lebih baik daripada tanpa oversampling, tapi saya khawatir jika ada overfitting. Sementara dalam kasus kedua hasilnya sedikit lebih baik daripada tanpa oversampling dan jauh lebih buruk daripada kasus pertama. Tetapi kekhawatiran dengan kasus kedua adalah jika semua sampel kelas minoritas pergi ke set pengujian, maka tidak ada manfaat yang akan dicapai dengan oversampling.
Saya tidak yakin apakah ada pengaturan lain untuk menguji data tersebut.
Opsi kedua (2) adalah cara yang tepat untuk melakukannya. Sampel sintetis yang Anda buat dengan teknik oversampling bukan contoh nyata melainkan sintetis. Ini tidak valid untuk tujuan pengujian sementara mereka masih ok untuk pelatihan. Mereka dimaksudkan untuk memodifikasi perilaku classifier tanpa memodifikasi algoritma.
sumber