Saya sedang melatih regresi logistik untuk memprediksi pelari mana yang paling mungkin menyelesaikan lomba ketahanan yang melelahkan.
Sangat sedikit pelari yang menyelesaikan lomba ini, jadi saya memiliki ketidakseimbangan kelas yang parah dan sejumlah kecil keberhasilan (mungkin beberapa lusin). Saya merasa seperti saya bisa mendapatkan "sinyal" yang bagus dari lusinan pelari yang hampir berhasil. (Data pelatihan saya tidak hanya selesai, tetapi juga seberapa jauh yang tidak selesai benar-benar membuatnya.) Jadi saya bertanya-tanya apakah itu ide yang buruk atau tidak untuk memasukkan "kredit parsial". Saya datang dengan beberapa fungsi untuk kredit parsial, ramp dan kurva logistik, yang dapat diberikan berbagai parameter.
Satu-satunya perbedaan dengan regresi adalah bahwa saya akan menggunakan data pelatihan untuk memprediksi hasil yang terus-menerus dimodifikasi, bukan hasil biner. Membandingkan prediksi mereka pada set tes (menggunakan respon biner) Saya memiliki hasil yang cukup tidak meyakinkan - kredit parsial logistik tampaknya sedikit meningkatkan R-squared, AUC, P / R, tapi ini hanya satu upaya pada satu kasus penggunaan menggunakan sampel kecil.
Saya tidak peduli tentang prediksi yang bias seragam terhadap penyelesaian - apa yang saya pedulikan adalah peringkat yang benar kontestan pada kemungkinan mereka untuk menyelesaikan, atau bahkan mungkin memperkirakan kemungkinan relatif mereka untuk menyelesaikan.
Saya memahami bahwa regresi logistik mengasumsikan hubungan linier antara prediktor dan log rasio odds, dan jelas rasio ini tidak memiliki interpretasi nyata jika saya mulai mengacaukan hasilnya. Saya yakin ini tidak pintar dari sudut pandang teoritis, tetapi mungkin membantu mendapatkan beberapa sinyal tambahan dan mencegah overfitting. (Saya memiliki prediktor yang hampir sama dengan kesuksesan, jadi mungkin berguna untuk menggunakan hubungan dengan penyelesaian sebagian sebagai pemeriksaan pada hubungan dengan penyelesaian penuh).
Apakah pendekatan ini pernah digunakan dalam praktik yang bertanggung jawab?
Either way, apakah ada jenis model lain di luar sana (mungkin sesuatu yang secara eksplisit memodelkan tingkat bahaya, diterapkan pada jarak bukan waktu) yang mungkin lebih cocok untuk jenis analisis ini?
sumber