Saya mencoba menyesuaikan regresi logistik di mana ada perbedaan besar dalam jumlah poin data di kedua kelompok (70 Vs 10.000). Seorang teman ahli statistik saya mengatakan kepada saya bahwa ini adalah masalah yang diketahui dengan regresi logistik dan bahwa untuk angka-angka itu cocok dengan data dan pada dasarnya tidak berfungsi. Ketika saya menampar data dan membandingkannya dengan model, cukup jelas bahwa ini memang benar.
Saya bertanya-tanya apakah ada yang menyadari metode yang lebih baik / lebih fleksibel untuk menyesuaikan data respons biner seperti ini?
(Ngomong-ngomong aku bukan ahli statistik, jadi santai saja!)
modeling
logistic
binary-data
Stacey_bio
sumber
sumber
Jawaban:
Bahwa itu tidak berhasil tidak datang dari ukuran kelompok yang tidak seimbang, tetapi dari kecilnya salah satu kelompok. Downsampling grup yang lebih besar tidak masalah, tetapi tidak membantu overfitting. (BTW, ada cara yang mudah dan elegan untuk memperbaiki prediksi dari model downsampled, dengan menambahkan ± log (r) ke istilah linear di mana r adalah rasio downsampling.)
Jika overfitting benar-benar masalahnya, Anda harus mengurangi jumlah variabel, atau mengatur model.
sumber
Masalah ini muncul di hampir semua pendekatan klasifikasi, apakah regresi logistik, mendukung klasifikasi vektor, atau klasifikasi Naif Bayes. Ada dua masalah yang saling terkait:
Sebuah model yang dilatih tentang dataset yang tidak seimbang mungkin lebih cocok dalam arti memperoleh bias yang mendukung kelas mayoritas.
Ketika mengevaluasi model ini pada dataset uji dengan tingkat ketidakseimbangan yang sama, akurasi klasifikasi dapat menjadi ukuran kinerja yang sangat menyesatkan.
Literatur tentang masalah ini telah datang dengan tiga strategi solusi:
Anda dapat mengembalikan keseimbangan pada set latihan dengan undersampling kelas besar atau dengan oversampling kelas kecil, untuk mencegah bias muncul di tempat pertama (lihat respons oleh @grotos).
Atau, Anda dapat memodifikasi biaya kesalahan klasifikasi untuk mencegah model dari mendapatkan bias di tempat pertama.
Perlindungan tambahan adalah untuk mengganti keakuratan dengan ketepatan yang disebut seimbang . Ini didefinisikan sebagai rata-rata aritmatika dari akurasi kelas-spesifik, mana dan mewakili akurasi yang diperoleh pada contoh positif dan negatif, masing-masing. Jika classifier berkinerja sama baiknya di kedua kelas, istilah ini mengurangi ke akurasi konvensional (yaitu, jumlah prediksi yang benar dibagi dengan jumlah total prediksi). Sebaliknya, jika akurasi konvensional di atas kebetulan sajaϕ:=12(π++π−), π+ π− karena classifier mengambil keuntungan dari set tes yang tidak seimbang, maka keakuratan yang seimbang, jika sesuai, akan jatuh ke peluang (lihat sketsa di bawah ini yang telah saya ambil dari tanggapan saya terhadap pertanyaan terkait ).
Seperti yang dijelaskan dalam tanggapan saya sebelumnya, saya akan merekomendasikan untuk mempertimbangkan setidaknya dua pendekatan di atas bersamaan. Sebagai contoh, Anda dapat melakukan oversample kelas minoritas Anda untuk mencegah classifier Anda dari mendapatkan bias mendukung kelas mayoritas. Setelah ini, ketika mengevaluasi kinerja classifier Anda, Anda dapat mengganti keakuratan dengan keakuratan yang seimbang.
sumber
Apakah maksud Anda distribusi tanggapan, yaitu Anda memiliki 70 kasus "YA" dan 10.000 "TIDAK"?
Jika demikian, itu adalah masalah umum dalam aplikasi penambangan data. Bayangkan sebuah database dengan 1.000.000 instance, di mana hanya sekitar 1.000 case "YA". Tingkat respons 1% dan bahkan kurang adalah hal yang umum dalam pemodelan prediksi bisnis. Dan jika Anda memilih sampel untuk melatih model yang merupakan masalah besar, terutama dengan menilai stabilitas model yang diberikan.
Apa yang kami lakukan adalah memilih sampel dengan proporsi berbeda. Dalam contoh di atas, itu akan menjadi 1000 kasus "YA" dan, misalnya, 9000 dari kasus "TIDAK". Pendekatan ini memberikan model yang lebih stabil. Namun, itu harus diuji pada sampel nyata (dengan 1.000.000 baris).
Saya sudah mengujinya dengan model data mining, seperti regresi logistik, pohon keputusan, dll. Namun, saya belum menggunakannya dengan model statistik "tepat" [1].
Anda dapat mencarinya sebagai "oversampling in statistics", hasil pertama cukup bagus: http://www.statssa.gov.za/isi2009/ScientificProgramme/IPMS/1621.pdf
[1] "tepat" dalam arti "bukan penambangan data".
sumber
Jika Anda menginginkan teknik klasifikasi yang tidak sensitif terhadap proporsi relatif contoh dari kelas yang berbeda, Support Vector Machines memiliki properti itu seperti halnya pohon keputusan.
sumber