Apakah pernah merupakan ide yang baik untuk memberikan "kredit parsial" (hasil terus menerus) dalam pelatihan regresi logistik?

10

Saya sedang melatih regresi logistik untuk memprediksi pelari mana yang paling mungkin menyelesaikan lomba ketahanan yang melelahkan.

Sangat sedikit pelari yang menyelesaikan lomba ini, jadi saya memiliki ketidakseimbangan kelas yang parah dan sejumlah kecil keberhasilan (mungkin beberapa lusin). Saya merasa seperti saya bisa mendapatkan "sinyal" yang bagus dari lusinan pelari yang hampir berhasil. (Data pelatihan saya tidak hanya selesai, tetapi juga seberapa jauh yang tidak selesai benar-benar membuatnya.) Jadi saya bertanya-tanya apakah itu ide yang buruk atau tidak untuk memasukkan "kredit parsial". Saya datang dengan beberapa fungsi untuk kredit parsial, ramp dan kurva logistik, yang dapat diberikan berbagai parameter.

masukkan deskripsi gambar di sini

Satu-satunya perbedaan dengan regresi adalah bahwa saya akan menggunakan data pelatihan untuk memprediksi hasil yang terus-menerus dimodifikasi, bukan hasil biner. Membandingkan prediksi mereka pada set tes (menggunakan respon biner) Saya memiliki hasil yang cukup tidak meyakinkan - kredit parsial logistik tampaknya sedikit meningkatkan R-squared, AUC, P / R, tapi ini hanya satu upaya pada satu kasus penggunaan menggunakan sampel kecil.

Saya tidak peduli tentang prediksi yang bias seragam terhadap penyelesaian - apa yang saya pedulikan adalah peringkat yang benar kontestan pada kemungkinan mereka untuk menyelesaikan, atau bahkan mungkin memperkirakan kemungkinan relatif mereka untuk menyelesaikan.

Saya memahami bahwa regresi logistik mengasumsikan hubungan linier antara prediktor dan log rasio odds, dan jelas rasio ini tidak memiliki interpretasi nyata jika saya mulai mengacaukan hasilnya. Saya yakin ini tidak pintar dari sudut pandang teoritis, tetapi mungkin membantu mendapatkan beberapa sinyal tambahan dan mencegah overfitting. (Saya memiliki prediktor yang hampir sama dengan kesuksesan, jadi mungkin berguna untuk menggunakan hubungan dengan penyelesaian sebagian sebagai pemeriksaan pada hubungan dengan penyelesaian penuh).

Apakah pendekatan ini pernah digunakan dalam praktik yang bertanggung jawab?

Either way, apakah ada jenis model lain di luar sana (mungkin sesuatu yang secara eksplisit memodelkan tingkat bahaya, diterapkan pada jarak bukan waktu) yang mungkin lebih cocok untuk jenis analisis ini?

C8H10N4O2
sumber

Jawaban:

11

Ini sepertinya pekerjaan untuk analisis survival, seperti analisis bahaya proporsional Cox atau mungkin beberapa model survival parametrik.

Pikirkan masalah ini secara terbalik dari cara Anda menjelaskannya: apa variabel prediktor yang terkait dengan jarak sebelumnya untuk berhenti ?

Berhenti adalah acara. Jarak yang ditempuh dapat dianggap setara dengan waktu-ke-peristiwa dalam analisis survival standar. Anda kemudian memiliki sejumlah acara yang sama dengan jumlah orang yang berhenti, sehingga masalah Anda dengan jumlah prediktor yang terbatas akan berkurang. Semua yang berhenti memberikan informasi.

Model Cox, jika bekerja pada data Anda, akan memberikan prediktor linier berdasarkan pada semua nilai variabel prediktor, rangking kontestan dalam urutan jarak yang diperkirakan untuk berhenti.

EdM
sumber
Terima kasih untuk ini. Sepertinya Anda mengatakan bahwa menggunakan model Cox, pelari dengan perkiraan jarak terpanjang untuk berhenti juga paling tidak mungkin berhenti sebelum jarak akhir, karena konstruk bahaya proporsional. Apakah itu akurat? Juga, karena Anda merekomendasikan ini, menebak gagasan kredit parsial tidak membuat Anda beralasan?
C8H10N4O2
Itu pada dasarnya benar. Saya melihat penggabungan jarak ke berhenti dalam model bertahan hidup sebagai cara untuk memberikan "kredit parsial" dengan cara yang memiliki justifikasi teoritis dan praktis yang mapan. Belum mengerjakan detailnya, tetapi saya menduga ini mencapai apa yang Anda inginkan, seperti yang diungkapkan dalam grafik Anda.
EdM