Menambahkan bobot untuk set data yang sangat miring dalam regresi logistik

9

Saya menggunakan versi standar regresi logistik agar sesuai dengan variabel input saya ke variabel output biner.

Namun dalam masalah saya, output negatif (0s) jauh lebih banyak daripada output positif (1s). Rasionya adalah 20: 1. Jadi ketika saya melatih classifier, tampaknya bahkan fitur yang sangat menyarankan kemungkinan output positif masih memiliki nilai yang sangat rendah (sangat negatif) untuk parameter yang sesuai. Tampaknya bagi saya bahwa ini terjadi karena ada terlalu banyak contoh negatif yang menarik parameter ke arah mereka.

Jadi saya bertanya-tanya apakah saya dapat menambahkan bobot (katakanlah menggunakan 20 bukannya 1) untuk contoh positif. Apakah ini mungkin menguntungkan sama sekali? Dan jika demikian, bagaimana saya harus menambahkan bobot (dalam persamaan di bawah).

Fungsi biaya terlihat seperti berikut:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

Gradien dari fungsi biaya ini (wrt ) adalah:θ

grad=((h(xθ)y)X)

Di sini = jumlah kasus uji, x = matriks fitur, y = vektor keluaran, h = fungsi sigmoid, θ = parameter yang kami coba pelajari.mxyhθ

Akhirnya saya menjalankan gradient descent untuk menemukan terendah yang mungkin. Implementasinya sepertinya berjalan dengan benar.J

Arahant
sumber
Hai, saya memiliki masalah yang sama persis dengan yang Anda gambarkan. Dalam data saya banyak contoh negatif dan sangat sedikit positif, dan bagi saya lebih penting untuk mengklasifikasikan dengan benar positif, bahkan jika itu berarti salah mengklasifikasikan beberapa negatif. Tampaknya saya juga menerapkan metode yang sama seperti Anda, karena saya menggunakan Fungsi Biaya dan persamaan gradien yang sama. Sejauh ini, saya telah menjalankan beberapa tes dan saya memperoleh hasil sebagai berikut: - Dengan 7 parameter , Ukuran sampel pelatihan: 225000 , Ukuran sampel uji: 75000 Hasil: 92% akurasi , walaupun dalam kasus positif hanya 11% w
Cartz
1
Apa yang Anda lakukan adalah mengacaukan fungsi kerugian dengan kemungkinan maksimum. Mle yang tidak diberi bobot adalah melakukan "hal yang benar" dari perspektif inferensial, dan mencerminkan betapa jarang hasilnya untuk setiap spesifikasi kovariat. Anda juga dapat memiliki pemisahan - ini akan terjadi bahwa seperangkat kovariat tertentu yang dapat memprediksi respons secara sempurna dalam data pelatihan - ini akan mengarah pada nilai negatif yang besar.
probabilityislogic
2
Klasifikasi bukanlah tujuan yang baik dan bukan cara regresi logistik dikembangkan. Ini adalah gagasan klasifikasi yang menyebabkan semua masalah yang tercantum di sini. Tetap berpegang pada probabilitas yang diprediksi dan aturan penilaian akurasi yang tepat
Frank Harrell
1
@arahant Itu hanya sebagian benar. Regresi logistik biner dengan tautan logit masih valid karena koefisien pada kovariat Anda adalah MLE dan mencerminkan efek variabel-variabel tersebut terhadap peluang kelas 1 dibandingkan dengan kelas 0. Namun, dalam desain case-control, intersep adalah selalu ditetapkan untuk mencerminkan proporsi kelas 1 ke kelas 0, dan sangat sah untuk menyesuaikan istilah intersep untuk menetapkan kelas yang sejalan dengan, misalnya, beberapa fungsi biaya kesalahan klasifikasi, atau beberapa proses lainnya, karena ini tidak mengubah koefisien pada variabel.
Sycorax berkata Reinstate Monica
1
Dari mana orang mendapatkan ide bahwa cutoff diperlukan / diinginkan / diinginkan?
Frank Harrell

Jawaban:

8

Y

Frank Harrell
sumber
Frank, apakah ada referensi atau sesuatu untuk mendukung detail "15 kali ..." Anda? Saya memiliki ketidakseimbangan serupa dalam beberapa data yang saya gunakan regresi logistik untuk menggantikan metode ROC beberapa peneliti lain dikembangkan. Baru-baru ini saya menemukan bias sampel kecil dan menambahkan opsi untuk pengurangan bias Firth sebagai opsi yang pas dalam kode / paket saya. Saat saya menulis ini untuk jurnal, akan bermanfaat untuk memiliki sesuatu untuk dikutip di samping aturan praktis seperti ini. Mohon maaf jika rujukannya adalah buku RMS Anda karena ada di rak saya, tetapi belum melihat ke sana.
Gavin Simpson
Ada makalah tentang bias sampel kecil dan nilai hukuman Firth. Saya tidak punya itu berguna. Mengenai 15: 1 lihat biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/…
Frank Harrell
Terima kasih Frank - masalah 15: 1 adalah yang paling saya cari. Saya memiliki beberapa publikasi tentang bias sampel kecil dan metode Firth - tetapi jika Anda memiliki sesuatu untuk dikerjakan pada akhirnya saya akan sangat berterima kasih jika Anda memberi tahu saya apa itu.
Gavin Simpson
3
Kalau-kalau ada orang lain yang salah membaca di atas seperti yang saya lakukan pada awalnya. 20: 1 dalam pertanyaan adalah rasio pengamatan negatif ke positif. 15: 1 dalam jawaban Frank Harrell adalah sesuatu yang lain: rasio pengamatan positif terhadap kandidat variabel independen.
Adam Bailey
Distribusi yang ekstrem juga menghadirkan masalah dengan meningkatkan kemungkinan pemisahan kuasi-lengkap, terutama jika Anda memiliki prediktor kategori. Penalti juga membantu di sini.
probabilityislogic
3

Dalam kasus seperti ini, seringkali lebih baik menggunakan tautan yang fleksibel, daripada tautan logistik, yang dapat menangkap asimetri ini. Misalnya miring-normal, GEV , sinh-arcsinh , dan referensi di dalamnya. Ada banyak yang lain tetapi saya tidak dapat memposting lebih dari 2 tautan.

Tyrion
sumber
Bisakah Anda memberikan penjelasan agar fungsi tautan lainnya lebih baik?
DW