Oke, jadi saya pikir saya memiliki sampel yang cukup layak, dengan mempertimbangkan aturan praktis 20: 1: sampel yang cukup besar (N = 374) dengan total 7 variabel prediktor kandidat.
Masalah saya adalah sebagai berikut: set variabel prediktor apa pun yang saya gunakan, klasifikasi tidak pernah lebih baik daripada spesifisitas 100% dan sensitivitas 0%. Namun tidak memuaskan, ini sebenarnya bisa menjadi hasil terbaik, mengingat serangkaian variabel prediktor kandidat (dari mana saya tidak bisa menyimpang).
Tapi, saya tidak bisa membantu tetapi berpikir saya bisa melakukan lebih baik, jadi saya perhatikan bahwa kategori variabel dependen cukup seimbang, hampir 4: 1. Bisakah subsampel yang lebih seimbang meningkatkan klasifikasi?
Jawaban:
Saldo dalam Set Pelatihan
Untuk model regresi logistik, data pelatihan yang tidak seimbang hanya memengaruhi estimasi intersep model (meskipun ini tentu saja mengacaukan semua probabilitas yang diprediksi, yang pada gilirannya membahayakan prediksi Anda). Untungnya koreksi intersep langsung: Asalkan Anda tahu, atau dapat menebak, proporsi sebenarnya dari 0s dan 1s dan tahu proporsi dalam set pelatihan Anda dapat menerapkan koreksi peristiwa langka pada intersep. Detailnya ada di King and Zeng (2001) [ PDF ].
'Koreksi peristiwa langka' ini dirancang untuk desain penelitian kontrol kasus, sebagian besar digunakan dalam epidemiologi, yang memilih kasus dengan memilih jumlah 0 kasus dan 1 kasus yang tetap, dan kemudian perlu mengoreksi bias pemilihan sampel yang dihasilkan. Memang, Anda bisa melatih classifier Anda dengan cara yang sama. Pilih sampel seimbang yang bagus dan kemudian perbaiki intersep untuk memperhitungkan fakta bahwa Anda telah memilih pada variabel dependen untuk mempelajari lebih lanjut tentang kelas yang lebih langka daripada sampel acak yang bisa memberi tahu Anda.
Membuat Prediksi
Pada topik terkait tetapi berbeda: Jangan lupa bahwa Anda harus melakukan thresholding secara cerdas untuk membuat prediksi. Tidak selalu terbaik untuk memprediksi 1 ketika probabilitas model lebih besar 0,5. Ambang lain mungkin lebih baik. Untuk tujuan ini, Anda harus melihat kurva Receiver Operating Characteristic (ROC) dari classifier Anda, bukan hanya keberhasilan prediktifnya dengan ambang probabilitas default.
sumber
predict
dan menghitung untuk masing-masing apakah lebih besar dari ambang batas baru.Masalahnya bukan bahwa kelas tidak seimbang per se, tetapi mungkin tidak ada pola yang cukup dari kelas minoritas untuk secara memadai mewakili distribusinya. Ini berarti bahwa masalah dapat muncul untuk setiap classifier (bahkan jika Anda memiliki masalah sintetis dan Anda tahu Anda memiliki model yang benar), bukan hanya regresi logistik. Hal yang baik adalah bahwa semakin banyak data tersedia, masalah "ketidakseimbangan kelas" biasanya hilang. Karena itu, 4: 1 tidak terlalu seimbang.
Jika Anda menggunakan dataset yang seimbang, yang penting adalah untuk mengingat bahwa output dari model sekarang merupakan estimasi dari probabilitas a-posteriori, dengan asumsi kelas-kelasnya sama-sama umum, sehingga Anda dapat membiaskan model terlalu jauh. Saya akan menimbang pola milik masing-masing kelas secara berbeda dan memilih bobot dengan meminimalkan cross-entropy pada set tes dengan frekuensi kelas operasional yang benar.
sumber
If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
Pikirkan tentang distribusi yang mendasari dua sampel. Apakah Anda memiliki sampel yang cukup untuk mengukur kedua sub populasi tanpa bias besar dalam sampel yang lebih kecil?
Lihat di sini untuk penjelasan yang lebih panjang.
https://statisticalhorizons.com/logistic-regress-for-rare-events
sumber