Diberikan set data dengan hasil biner dan beberapa matriks prediktor , model regresi logistik standar memperkirakan koefisien yang memaksimalkan kemungkinan binomial. Ketika adalah peringkat penuh adalah unik; ketika pemisahan sempurna tidak ada, itu terbatas.
Apakah model kemungkinan maksimum ini juga memaksimalkan ROC AUC (alias -statistic), atau apakah ada beberapa estimasi koefisien yang akan mendapatkan AUC ROC yang lebih tinggi? Jika benar bahwa MLE tidak perlu memaksimalkan ROC AUC, maka cara lain untuk melihat pertanyaan ini adalah "Apakah ada alternatif untuk memaksimalkan kemungkinan yang akan selalu memaksimalkan ROC AUC dari regresi logistik?"
Saya berasumsi bahwa model-modelnya sama: kita tidak menambah atau menghapus prediktor di , atau mengubah spesifikasi model, dan saya berasumsi bahwa model pemaksimalan kemungkinan dan pemaksimalan AUC menggunakan fungsi tautan yang sama.
sumber
Jawaban:
Hal ini tidak terjadi bahwaβMLE=βAUC .
Untuk menggambarkan hal ini, pertimbangkan bahwa AUC dapat ditulis sebagai
Dengan kata lain, pemesanan prediksi adalah satu-satunya hal yang mempengaruhi AUC . Ini tidak terjadi dengan fungsi kemungkinan. Jadi sebagai latihan mental, anggaplah kita memiliki satu prediktor tunggal dan dalam dataset kami, kami tidak melihat pemisahan sempurna (yaitu,βMLE adalah terbatas). Sekarang, jika kita hanya mengambil nilai prediktor terbesar dan meningkatkannya dengan jumlah kecil, kami akan mengubah kemungkinan solusi ini, tetapi itu tidak akan mengubah AUC, karena pemesanan harus tetap sama. Jadi, jika MLE lama memaksimalkan AUC, itu masih akan memaksimalkan AUC setelah mengubah prediktor, tetapi tidak akan lagi memaksimalkan kemungkinan.
Jadi, paling tidak, itu bukan kasus bahwaβAUC tidak unik; setiap β yang mempertahankan urutan estimasi mencapai AUC yang sama persis. Secara umum, sejak AUC sensitif terhadap aspek yang berbeda dari data, saya akan percaya bahwa kita harus dapat menemukan kasus di mana βMLE tidak memaksimalkan βAUC . Bahkan, saya berani menebak bahwa ini terjadi dengan probabilitas tinggi.
EDIT (memindahkan komentar menjadi jawaban)
Langkah selanjutnya adalah membuktikan bahwa MLE belum tentu memaksimalkan AUC (yang belum terbukti). Seseorang dapat melakukan ini dengan mengambil sesuatu seperti prediktor 1, 2, 3, 4, 5, 6,x (dengan x>6 ) dengan hasil 0, 0, 0, 1, 1, 1, 0. Setiap nilai positif β akan memaksimalkan AUC (terlepas dari nilai x ), tetapi kita dapat memilih x cukup besar sehingga βMLE<0 .
sumber