Saya memiliki set data uji yang sangat tidak seimbang. Set positif terdiri dari 100 kasus sedangkan set negatif terdiri dari 1500 kasus. Di sisi pelatihan, saya memiliki kelompok kandidat yang lebih besar: kelompok pelatihan positif memiliki 1.200 kasus dan kelompok pelatihan negatif memiliki 12.000 kasus. Untuk skenario seperti ini, saya punya beberapa pilihan:
1) Menggunakan SVM tertimbang untuk seluruh rangkaian pelatihan (P: 1200, N: 12000)
2) Menggunakan SVM berdasarkan set pelatihan sampel (P: 1200, N: 1200), 1200 kasus negatif diambil sampel dari 12000 kasus.
Apakah ada panduan teoretis untuk memutuskan pendekatan mana yang lebih baik? Karena set data tes sangat tidak seimbang, haruskah saya menggunakan set pelatihan yang tidak seimbang juga?
sumber
Jawaban:
Dari posting terbaru di reddit, balasan oleh datapraxis akan menarik.
sunting: makalah yang disebutkan adalah Haibo He, Edwardo A. Garcia, "Belajar dari Data yang Tidak Seimbang," Transaksi IEEE tentang Pengetahuan dan Rekayasa Data, hal. 1263-1284, September, 2009 (PDF)
sumber
Regresi Logistik Diperluas Berpasangan, pembelajaran berbasis ROC, Meningkatkan dan Mengantongi (agregasi Bootstrap), Kumpulan gugus berbasis tautan (LCE), Bayesian Network, pengklasifikasi centroid terdekat, Teknik Bayesian, Perangkat kasar berbobot, k-NN
dan banyak metode pengambilan sampel untuk menangani ketidakseimbangan.
sumber