Kami sudah memiliki beberapa pertanyaan tentang data yang tidak seimbang ketika menggunakan regresi logistik , SVM , pohon keputusan , mengantongi dan sejumlah pertanyaan serupa lainnya, yang menjadikannya topik yang sangat populer! Sayangnya, masing-masing pertanyaan tampaknya khusus untuk algoritma dan saya tidak menemukan pedoman umum untuk menangani data yang tidak seimbang.
Mengutip salah satu jawaban oleh Marc Claesen , berurusan dengan data yang tidak seimbang
(...) sangat tergantung pada metode pembelajaran. Sebagian besar pendekatan tujuan umum memiliki satu (atau beberapa) cara untuk menghadapinya.
Tetapi kapan tepatnya kita harus khawatir tentang data yang tidak seimbang? Algoritma mana yang paling banyak dipengaruhi olehnya dan mana yang bisa menghadapinya? Algoritma mana yang membutuhkan kita untuk menyeimbangkan data? Saya sadar bahwa mendiskusikan setiap algoritme tidak mungkin dilakukan di situs tanya jawab seperti ini, saya lebih suka mencari pedoman umum tentang kapan bisa menjadi masalah.
Jawaban:
Bukan jawaban langsung, tetapi perlu dicatat bahwa dalam literatur statistik, beberapa prasangka terhadap data yang tidak seimbang memiliki akar sejarah.
Banyak model klasik disederhanakan rapi dengan asumsi data yang seimbang, terutama untuk metode seperti ANOVA yang terkait erat dengan desain eksperimental — motivasi tradisional / asli untuk mengembangkan metode statistik.
Tetapi aritmatika statistik / probabilistik menjadi sangat jelek, cukup cepat, dengan data tidak seimbang. Sebelum adopsi komputer yang meluas, perhitungan dengan tangan begitu luas sehingga memperkirakan model pada data yang tidak seimbang praktis tidak mungkin.
Tentu saja, komputer pada dasarnya menganggap ini bukan masalah. Demikian juga, kita dapat memperkirakan model pada kumpulan data besar, memecahkan masalah optimasi dimensi tinggi, dan mengambil sampel dari distribusi probabilitas gabungan yang sulit diolah secara analitis, yang semuanya secara fungsional tidak mungkin dilakukan, lima puluh tahun yang lalu.
Ini adalah masalah lama, dan para akademisi menghabiskan banyak waktu untuk mengerjakan masalah ini ... sementara itu, banyak masalah teraplikasi melampaui / meniadakan penelitian itu, tetapi kebiasaan lama sulit ...
Edit untuk ditambahkan:
Saya sadar saya tidak keluar dan hanya mengatakannya: tidak ada masalah tingkat rendah dengan menggunakan data yang tidak seimbang. Dalam pengalaman saya, saran untuk "menghindari data yang tidak seimbang" adalah algoritma khusus, atau kebijaksanaan yang diturunkan. Saya setuju dengan AdamO bahwa secara umum, data yang tidak seimbang tidak menimbulkan masalah konseptual untuk model yang ditentukan dengan baik.
sumber
WLOG Anda bisa fokus pada ketidakseimbangan dalam satu faktor, daripada konsep yang lebih bernuansa "data sparsity", atau jumlah sel kecil.
Dalam analisis statistik yang tidak berfokus pada pembelajaran, kita sering menemukan bahwa kekuatan yang sama atau lebih baik diberikan ketika menggunakan skor kecenderungan untuk mencocokkan kelompok yang lebih kecil dengan kelompok yang lebih besar. Ini sebagian karena pencocokan memiliki tujuan yang sama dengan penyesuaian pembaur dalam hal "menyeimbangkan" faktor-faktor penentu keanggotaan kelompok, sehingga menghalangi efek pembaur mereka. Alasan jumlah perancu yang mungkin disesuaikan dalam analisis multivariat tergantung pada ukuran sampel. Beberapa aturan praktis mengatakan satu variabel per setiap 10 hingga 20 pengamatan. Dalam data yang tidak seimbang, Anda secara naif percaya bahwa data Anda cukup besar, tetapi dengan sejumlah kecil orang yang memiliki kondisi lebih jarang: inflasi ragam mengurangi daya secara substansial. Faktanya, Anda terlalu menyesuaikan diri.
Oleh karena itu, setidaknya dalam regresi (tapi saya curiga dalam semua keadaan), satu-satunya masalah dengan data yang tidak seimbang adalah bahwa Anda secara efektif memiliki ukuran sampel yang kecil . Jika ada metode yang cocok untuk jumlah orang di kelas yang lebih jarang, seharusnya tidak ada masalah jika proporsi keanggotaan mereka tidak seimbang.
sumber
Data yang tidak seimbang hanya masalah tergantung pada aplikasi Anda. Jika misalnya data Anda menunjukkan bahwa A terjadi 99,99% dari waktu dan 0,01% dari waktu B terjadi dan Anda mencoba memprediksi hasil tertentu, algoritma Anda mungkin akan selalu mengatakan A. Ini tentu saja benar! Metode Anda tidak mungkin mendapatkan akurasi prediksi yang lebih baik daripada 99,99%. Namun dalam banyak aplikasi kami tidak hanya tertarik pada kebenaran prediksi tetapi juga mengapa B terjadi kadang-kadang. Di sinilah data yang tidak seimbang menjadi masalah. Karena sulit meyakinkan metode Anda bahwa itu dapat memprediksi lebih baik dari 99,99% benar. Metode ini benar tetapi tidak untuk pertanyaan Anda. Jadi menyelesaikan data yang tidak seimbang pada dasarnya adalah biasing data Anda untuk mendapatkan hasil yang menarik dan bukan hasil yang akurat.
Secara umum ada tiga kasus:
Anda benar-benar tertarik pada prediksi yang akurat dan Anda pikir data Anda reprenstatif. Dalam hal ini Anda tidak harus memperbaiki sama sekali, Berjemur dalam kemuliaan prediksi akurat 99,99% Anda :).
Anda tertarik pada prediksi tetapi data Anda dari sampel yang adil tetapi entah bagaimana Anda kehilangan sejumlah pengamatan. Jika Anda kehilangan pengamatan secara acak, Anda masih baik-baik saja. Jika Anda kehilangan mereka dengan cara yang bias tetapi Anda tidak tahu seberapa biasnya, Anda akan membutuhkan data baru. Namun jika pengamatan ini hilang hanya atas dasar satu karakteristik. (misalnya Anda mengurutkan hasil dalam A dan B tetapi tidak dengan cara lain tetapi kehilangan setengah dari B) Ypu dapat mem-bootstrap data Anda.
Anda tidak tertarik pada prediksi global yang akurat, tetapi hanya dalam kasus yang jarang terjadi. Dalam hal ini Anda dapat mengembang data dari kasus itu dengan mem-bootstrap data atau jika Anda memiliki cukup data dengan cara melempar data dari kasus lain. Perhatikan bahwa ini bias data dan hasil Anda sehingga peluang dan hasil semacam itu salah!
Secara umum sebagian besar tergantung pada apa tujuannya. Beberapa sasaran menderita karena data yang tidak seimbang dan yang lainnya tidak. Semua metode prediksi umum menderita karena itu jika tidak mereka akan memberikan hasil yang mengerikan secara umum.
sumber
Anggaplah kita memiliki dua kelas:
Mari kita asumsikan kita tertarik untuk mengidentifikasi elemen kelas B, yang bisa jadi individu yang terkena penyakit langka atau penipu.
Hanya dengan menebak A peserta didik akan skor tinggi pada hilangnya-fungsi mereka dan sangat sedikit elemen yang salah diklasifikasikan mungkin tidak bergerak, numerik, jarum (di tumpukan jerami, dalam hal ini). Contoh ini membawa intuisi di balik salah satu "trik" untuk mengurangi masalah ketidakseimbangan kelas: mengutak-atik fungsi biaya.
Saya merasa bahwa data yang tidak seimbang adalah masalah ketika model menunjukkan sensitivitas hampir nol dan spesifisitas hampir satu. Lihat contoh di artikel ini di bagian "mengabaikan masalah" .
Masalah sering kali menjadi solusi. Di samping trik yang disebutkan di atas, ada opsi lain . Namun, mereka datang dengan harga: peningkatan model dan kompleksitas komputasi.
Pertanyaannya menanyakan model mana yang lebih cenderung untuk menyelesaikan sensitivitas mendekati nol dan spesifisitas hampir satu. Saya merasa itu tergantung pada beberapa dimensi:
sumber
Jika Anda berpikir tentang hal ini: Pada kumpulan data yang sangat tidak dapat dipisahkan dengan sempurna, hampir semua algoritma akan bekerja tanpa kesalahan.
Oleh karena itu, ini lebih merupakan masalah noise dalam data dan kurang terikat pada algoritma tertentu. Dan Anda tidak tahu sebelumnya algoritma mana yang mengkompensasi satu jenis noise terbaik.
Pada akhirnya Anda hanya perlu mencoba metode yang berbeda dan memutuskan dengan validasi silang.
sumber