Membuat Dataset yang Tidak Seimbang

11

Saya ingin menguji model saya yang terlatih pada dataset yang tidak seimbang. Apakah ada algoritma yang tersedia untuk menghasilkan data sintetis dari dataset berlabel seimbang (spam / non-spam)?

Stuart Peterson
sumber
Anda selalu dapat mengacaukan set data apa pun dengan hanya menggarisbawahi satu kelas.
user2974951

Jawaban:

8

Coba SMOTE , ini merupakan algoritma yang digunakan untuk pengambilan sampel berlebih. Ini menciptakan sampel sintetis dari kelas yang Anda inginkan sampel berlebihan.

Anda dapat menggunakan ini untuk membuat jumlah sampel yang Anda butuhkan.

Mary93
sumber
1
dapatkah SMOTE digunakan untuk pengambilan sampel yang kurang juga?
Stuart Peterson
Nah, Anda bisa mendapatkan undersampling kelas A dengan oversampling kelas notA ...
kjetil b halvorsen
3
@StuartPeterson Tidak, SMOTE adalah algoritma pengambilan sampel berlebih, tetapi ada banyak algoritma pengambilan sampel lainnya
Mary93