Saya menggunakan versi standar regresi logistik agar sesuai dengan variabel input saya ke variabel output biner.
Namun dalam masalah saya, output negatif (0s) jauh lebih banyak daripada output positif (1s). Rasionya adalah 20: 1. Jadi ketika saya melatih classifier, tampaknya bahkan fitur yang sangat menyarankan kemungkinan output positif masih memiliki nilai yang sangat rendah (sangat negatif) untuk parameter yang sesuai. Tampaknya bagi saya bahwa ini terjadi karena ada terlalu banyak contoh negatif yang menarik parameter ke arah mereka.
Jadi saya bertanya-tanya apakah saya dapat menambahkan bobot (katakanlah menggunakan 20 bukannya 1) untuk contoh positif. Apakah ini mungkin menguntungkan sama sekali? Dan jika demikian, bagaimana saya harus menambahkan bobot (dalam persamaan di bawah).
Fungsi biaya terlihat seperti berikut:
Gradien dari fungsi biaya ini (wrt ) adalah:
Di sini = jumlah kasus uji, x = matriks fitur, y = vektor keluaran, h = fungsi sigmoid, θ = parameter yang kami coba pelajari.
Akhirnya saya menjalankan gradient descent untuk menemukan terendah yang mungkin. Implementasinya sepertinya berjalan dengan benar.
sumber
Jawaban:
sumber
Dalam kasus seperti ini, seringkali lebih baik menggunakan tautan yang fleksibel, daripada tautan logistik, yang dapat menangkap asimetri ini. Misalnya miring-normal, GEV , sinh-arcsinh , dan referensi di dalamnya. Ada banyak yang lain tetapi saya tidak dapat memposting lebih dari 2 tautan.
sumber