Saya ingin tahu apakah ada / beberapa keuntungan menggunakan pengambilan sampel bertingkat daripada pengambilan sampel acak, ketika membagi dataset asli ke dalam pelatihan dan set pengujian untuk klasifikasi.
Juga, apakah pengambilan sampel bertingkat memperkenalkan bias lebih ke dalam pengklasifikasi daripada pengambilan sampel acak?
Aplikasi, yang ingin saya gunakan pengambilan sampel bertingkat untuk persiapan data, adalah pengelompokan Hutan Acak, dilatih pada dari dataset asli. Sebelum pengklasifikasi, ada juga langkah pembuatan sampel sintetis (SMOTE [1]) yang menyeimbangkan ukuran kelas.
[1] Chawla, Nitesh V., et al. " SMOTE: teknik over-sampling minoritas sintetis. " Journal of Artificial Intelligence Research 16 (2002): 321-357.