Manfaat pengambilan sampel bertingkat vs acak untuk menghasilkan data pelatihan dalam klasifikasi

20

Saya ingin tahu apakah ada / beberapa keuntungan menggunakan pengambilan sampel bertingkat daripada pengambilan sampel acak, ketika membagi dataset asli ke dalam pelatihan dan set pengujian untuk klasifikasi.

Juga, apakah pengambilan sampel bertingkat memperkenalkan bias lebih ke dalam pengklasifikasi daripada pengambilan sampel acak?

Aplikasi, yang ingin saya gunakan pengambilan sampel bertingkat untuk persiapan data, adalah pengelompokan Hutan Acak, dilatih pada dari dataset asli. Sebelum pengklasifikasi, ada juga langkah pembuatan sampel sintetis (SMOTE [1]) yang menyeimbangkan ukuran kelas.23

[1] Chawla, Nitesh V., et al. " SMOTE: teknik over-sampling minoritas sintetis. " Journal of Artificial Intelligence Research 16 (2002): 321-357.

gc5
sumber

Jawaban:

20

Pengambilan sampel bertingkat bertujuan untuk memisahkan satu set data sehingga setiap pemisahan serupa dengan sesuatu.

Dalam pengaturan klasifikasi, sering dipilih untuk memastikan bahwa set kereta dan tes memiliki kira-kira persentase sampel yang sama dari setiap kelas target sebagai set lengkap.

Akibatnya, jika kumpulan data memiliki sejumlah besar setiap kelas, pengambilan sampel bertingkat hampir sama dengan pengambilan sampel acak. Tetapi jika satu kelas tidak banyak terwakili dalam set data, yang mungkin menjadi kasus dalam dataset Anda karena Anda berencana untuk melakukan oversample kelas minoritas, maka pengambilan sampel bertingkat dapat menghasilkan distribusi kelas target yang berbeda dalam kereta dan set tes daripada apa yang acak pengambilan sampel dapat menghasilkan.

Perhatikan bahwa pengambilan sampel bertingkat dapat juga dirancang untuk mendistribusikan beberapa fitur secara setara di kereta berikutnya dan set pengujian. Misalnya, jika masing-masing sampel mewakili satu individu, dan satu fitur adalah usia, kadang-kadang berguna untuk memiliki distribusi usia yang sama di kedua kereta dan set tes.

FYI:

Franck Dernoncourt
sumber