Alasan intuitif telah dijelaskan di blogpost:
Jika sasaran kami adalah Prediksi, ini akan menyebabkan bias yang pasti. Dan lebih buruk lagi, ini akan menjadi bias permanen, dalam arti bahwa kita tidak akan memiliki perkiraan yang konsisten ketika ukuran sampel bertambah.
Jadi, bisa dibilang masalah data seimbang (buatan) lebih buruk daripada kasus tidak seimbang.
Data yang seimbang baik untuk klasifikasi, tetapi Anda jelas kehilangan informasi tentang frekuensi penampilan, yang akan memengaruhi metrik akurasi sendiri, serta kinerja produksi.
Katakanlah Anda mengenali huruf tulisan tangan dari alfabet bahasa Inggris (26 huruf). Overbalancing setiap penampilan huruf akan memberikan setiap huruf kemungkinan diklasifikasikan (dengan benar atau tidak) kira-kira 1/26, sehingga classifier akan melupakan distribusi huruf yang sebenarnya dalam sampel asli. Dan tidak masalah ketika classifier dapat menggeneralisasi dan mengenali setiap huruf dengan akurasi tinggi .
Tetapi jika akurasi dan yang paling penting generalisasi tidak "terlalu tinggi" (saya tidak bisa memberikan definisi - Anda dapat menganggapnya hanya sebagai "kasus terburuk") - poin yang salah klasifikasi kemungkinan besar akan didistribusikan secara merata di antara semua huruf , sesuatu seperti:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
Berbeda dengan tanpa menyeimbangkan (dengan asumsi bahwa "A" dan "C" memiliki probabilitas penampilan yang jauh lebih tinggi dalam teks)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Jadi sering kasus akan mendapatkan kesalahan klasifikasi yang lebih sedikit. Apakah itu baik atau tidak tergantung pada tugas Anda. Untuk pengenalan teks alami, orang dapat berargumen bahwa huruf dengan frekuensi yang lebih tinggi lebih layak, karena mereka akan mempertahankan semantik teks asli, membawa tugas pengenalan lebih dekat ke prediksi (di mana semantik mewakili kecenderungan ). Tetapi jika Anda mencoba mengenali sesuatu seperti tangkapan layar kunci ECDSA (lebih entropi -> kurang prediksi) - menjaga data tidak seimbang tidak akan membantu. Jadi, sekali lagi, itu tergantung.
Perbedaan yang paling penting adalah bahwa estimasi keakuratannya sendiri menjadi bias (seperti yang Anda lihat dalam contoh alfabet seimbang), jadi Anda tidak tahu bagaimana perilaku model dipengaruhi oleh poin paling langka atau paling sering.
PS Anda selalu dapat melacak kinerja klasifikasi tidak seimbang dengan metrik Precision / Recall terlebih dahulu dan memutuskan apakah Anda perlu menambahkan balancing atau tidak.
EDIT : Ada kebingungan tambahan yang terletak pada teori estimasi tepatnya pada perbedaan antara rata - rata sampel dan rata -rata populasi. Misalnya, Anda mungkin tahu (boleh dibilang) distribusi huruf bahasa Inggris yang sebenarnya dalam alfabet , tetapi sampel Anda (set pelatihan) tidak cukup besar untuk memperkirakannya dengan benar (dengan ). Jadi untuk mengkompensasi , kadang-kadang direkomendasikan untuk menyeimbangkan kembali kelas berdasarkan populasi itu sendiri atau parameter yang diketahui dari sampel yang lebih besarp(xi|θ)p(xi|θ^)θ^i−θi(estimator jadi lebih baik). Namun, dalam praktiknya tidak ada jaminan bahwa "sampel yang lebih besar" didistribusikan secara identik karena risiko mendapatkan data yang bias pada setiap langkah (katakanlah huruf bahasa Inggris yang dikumpulkan dari literatur teknis vs fiksi vs seluruh perpustakaan) sehingga menyeimbangkan masih bisa berbahaya.
Jawaban ini juga harus menjelaskan kriteria penerapan untuk menyeimbangkan:
Masalah ketidakseimbangan kelas disebabkan oleh tidak adanya pola yang cukup dimiliki oleh kelas minoritas, bukan oleh rasio pola positif dan negatif itu sendiri. Umumnya jika Anda memiliki cukup data, "masalah ketidakseimbangan kelas" tidak muncul
Sebagai kesimpulan, balancing artifisial jarang berguna jika set pelatihan cukup besar. Tidak adanya data statistik dari sampel yang lebih besar yang terdistribusi secara identik juga menunjukkan tidak perlu penyeimbangan buatan (terutama untuk prediksi), jika tidak kualitas penaksir sama baiknya dengan "probabilitas untuk bertemu dinosaurus":
Berapa probabilitas untuk bertemu dinosaurus di jalan?
1/2 Anda bertemu dengan dinosaurus atau Anda tidak bertemu dinosaurus
Konsisten dengan komentar @ kjetil-b-halvorsen, adopsi pembelajaran mesin yang cepat telah membingungkan para peneliti tentang prediksi dan klasifikasi. Seperti yang saya jelaskan lebih terinci di sini , klasifikasi hanya sesuai untuk sebagian kecil kasus. Ketika hasilnya jarang (atau terlalu umum), probabilitas adalah segalanya karena dalam kasus itu orang hanya dapat berbicara tentang kecenderungan , bukan tentang memprediksi kejadian individu.
Dalam statistik, kami mempelajari beberapa waktu lalu bahwa metode apa pun yang mengharuskan seseorang untuk mengecualikan beberapa data sangat mencurigakan. Jadi tujuan menyeimbangkan hasil adalah salah tempat. Prediksi kecenderungan (probabilitas) tidak memerlukannya. Dan begitu Anda memperkirakan probabilitas Anda dapat membuat keputusan yang optimal dengan menerapkan fungsi utilitas / biaya / kerugian untuk risiko yang diprediksi.
sumber
Tergantung pada apa yang ingin Anda capai dari klasifikasi?
Katakan itu kanker v / s bukan kanker, maka mendeteksi kanker itu vital. Namun karena non-kanker akan membentuk sebagian besar data Anda, pengklasifikasi dasarnya dapat mengirim semua kasus ke kelas non-kanker dan mendapatkan akurasi yang sangat tinggi. Tetapi kita tidak mampu membelinya, jadi pada dasarnya kita mengambil sampel kasus-kasus non-kanker, pada dasarnya memindahkan batas keputusan menjauh dari wilayah kanker ke wilayah non-kanker.
Bahkan dalam kasus penggunaan di mana akurasi adalah satu-satunya tujuan kami, menyeimbangkan dapat menjadi penting jika keseimbangan waktu pengujian diharapkan berbeda dari waktu kereta.
Misalnya, Anda ingin mengklasifikasikan mangga dan jeruk, Anda memiliki dataset pelatihan dengan 900 mangga dan 30 jeruk, tetapi Anda berharap untuk menyebarkannya di pasar dengan mangga dan jeruk yang sama, maka idealnya Anda harus sampel dalam rasio sampel yang diharapkan untuk memaksimalkan ketepatan.
sumber
Saat data Anda seimbang, Anda dapat memilih untuk memeriksa akurasi metrik. Tetapi ketika situasi seperti itu data Anda tidak seimbang akurasi Anda tidak konsisten untuk iterasi yang berbeda. Anda perlu lebih berkonsentrasi metrik seperti Precision (PPR), Recall (sensitivitas). Dua metrik ini harus seimbang ketika membandingkan. Anda juga harus memeriksa F1-Score yang merupakan rata-rata harmonis dari Precision dan recall. Ini berlaku untuk semua algoritma pembelajaran mesin
sumber