Overfitting model regresi logistik

28

Apakah mungkin untuk mengenakan model regresi logistik? Saya melihat video yang mengatakan bahwa jika area saya di bawah kurva ROC lebih tinggi dari 95%, maka kemungkinan besar akan terlalu pas, tetapi apakah mungkin untuk mengenakan model regresi logistik?

carlosedubarreto
sumber
1
Bisakah Anda mengatakan video mana, atau setidaknya memberi sedikit lebih banyak konteks?
Glen_b -Reinstate Monica
2
Tentu @Glen_b, videonya adalah ini: tautan Komentar sudah di 40 menit. Mengatakan hal itu: ketika ROC memiliki AUC antara 0,5 dan 0,6 itu miskin. Jika antara 0,6 dan 0,7 di bawah rata-rata. Jika antara 0,7 dan 0,75 rata-rata / Bagus. Itu antara 0,75 dan 0,8 itu bagus. Jika antara 0,8 dan 0,9 Excelent. Jika lebih tinggi dari 0,9 itu mencurigakan dan jika lebih tinggi maka 0,95 itu terlalu tepat. Saya sudah menemukan penjelasan yang sangat mudah dimengerti, tetapi itu benar? Karena saya sedang mencari sesuatu untuk membuat cadangan pemikiran itu tetapi saya tidak menemukan.
carlosedubarreto
Dan Glen_B, penjelasan yang diberikan @AdamO sepertinya penjelasan yang saya lihat di video tidak tepat, tapi mungkin saya salah memahami penjelasan Adam. Hal-hal Statisc ini sangat kompleks, tetapi sungguh menyenangkan untuk menggali lebih dalam. :)
carlosedubarreto
Saya pikir penjelasan AdamO bagus (saya membenarkannya), tetapi pertanyaan seharusnya menjadi sumber daya permanen; pembaca selanjutnya (misalnya seseorang dengan pertanyaan serupa) mungkin menginginkan konteks untuk mengetahui apa yang dikatakan. Saya pikir uraian Anda dalam komentar memberikan konteks yang cukup bagi kebanyakan orang dan tautannya akan berlaku untuk yang lain. Jadi terima kasih Anda menjadikan pertanyaan Anda lebih bermanfaat.
Glen_b -Reinstate Monica
Terima kasih banyak @Glen_b, saya belajar cara menggunakan alat luar biasa yang kami miliki (forum ini). Saya akan mengingat tip Anda ketika mengajukan pertanyaan baru.
carlosedubarreto

Jawaban:

35

Ya, Anda bisa mengenakan model regresi logistik. Tapi pertama-tama, saya ingin membahas poin tentang AUC (Area Di Bawah Kurva Karakteristik Operasi Penerima): Tidak ada aturan praktis praktis dengan AUC, yang pernah ada.

Apa itu AUC adalah probabilitas bahwa sampel positif acak (atau kasus) akan memiliki nilai penanda lebih tinggi daripada negatif (atau kontrol) karena AUC secara matematis setara dengan statistik U.

Apa yang tidak AUC adalah ukuran standar dari akurasi prediksi. Peristiwa yang sangat deterministik dapat memiliki AUC prediktor tunggal 95% atau lebih tinggi (seperti dalam mekatronika terkontrol, robotika, atau optik), beberapa model prediksi risiko logistik multivariabel yang kompleks memiliki AUC 64% atau lebih rendah seperti prediksi risiko kanker payudara, dan tingkat akurasi prediksi yang tinggi.

Nilai AUC yang masuk akal, seperti halnya dengan analisis kekuatan, ditentukan sebelumnya dengan mengumpulkan pengetahuan tentang latar belakang dan tujuan penelitian apriori . Dokter / insinyur menjelaskan apa yang mereka inginkan, dan Anda, ahli statistik, menentukan nilai AUC target untuk model prediksi Anda. Kemudian mulailah penyelidikan.

Memang mungkin untuk mengenakan model regresi logistik. Selain dari ketergantungan linier (jika matriks model memiliki peringkat kekurangan), Anda juga dapat memiliki konkordansi sempurna, atau itu adalah plot nilai yang dipasang terhadap Y yang membedakan kasus dan kontrol dengan sempurna. Dalam hal ini, parameter Anda belum konvergen tetapi hanya berada di suatu tempat di ruang batas yang memberikan kemungkinan . Namun, kadang-kadang, AUC adalah 1 secara kebetulan saja.

Ada jenis bias lain yang muncul dari menambahkan terlalu banyak prediktor ke model, dan itu bias sampel kecil. Secara umum, rasio odds log dari model regresi logistik cenderung ke arah faktor bias karena non-collapability dari rasio odds dan jumlah sel nol. Dalam kesimpulan, ini ditangani menggunakan regresi logistik bersyarat untuk mengontrol variabel pengganggu dan presisi dalam analisis bertingkat. Namun, dalam prediksi, Anda adalah SOOL. Tidak ada prediksi yang dapat digeneralisasikan ketika Anda memiliki , ( ) karena Anda dijamin telah memodelkan "data" dan tidak "tren" pada saat itu. Dimensi tinggi ( besarp n π ( 1 - π ) π = Prob ( Y = 1 )2βpnπ(1π)π=Prob(Y=1)p) prediksi hasil biner lebih baik dilakukan dengan metode pembelajaran mesin. Memahami analisis diskriminan linier, kuadrat terkecil parsial, prediksi tetangga terdekat, peningkatan, dan hutan acak akan menjadi tempat yang sangat baik untuk memulai.

AdamO
sumber
Ketika Anda mengatakan , saya kira maksud Anda adalah proporsi waktu y = 1? Dan bukan jumlah dari berapa kali y = 1? y
generic_user
Itu membingungkan, p adalah jumlah parameter dalam model, sekarang saya menggunakan untuk proporsi. Terima kasih telah menunjukkannya. π
AdamO
Bagaimana Anda menentukan nilai AUC yang tepat untuk dibidik?
Kevin H. Lin
1
@ KevinH.Lin Tergantung pada sifat pertanyaan. Semakin banyak Anda memasukkan pengetahuan yang sesuai secara kontekstual, semakin baik. Ini akan menjadi prevalensi yang mendasari atau beban penyakit atau kondisi di mana model menilai, kinerja model yang ada (bersaing), pengorbanan efektivitas biaya, dan kebijakan seputar penerapan praktik dan / atau rekomendasi baru. Tidak ada yang hitam dan putih, tetapi seperti banyak hal lainnya, Anda perlu berdebat meyakinkan untuk meyakinkan dan mendukung nilai AUC yang Anda, sebagai ahli statistik, tentukan sebelumnya.
AdamO
1
@ KevinH.Lin Saya tidak berpikir jawaban yang valid akan sejelas dan sesingkat yang Anda inginkan. Itu seperti bertanya, "Mobil apa yang harus saya beli?" :) Saya sarankan Anda meninjau artikel yang telah menjelajahi AUC di bidang penelitian terkait yang menarik minat Anda. Saya telah bekerja sebagian besar dalam model prediksi risiko untuk kanker payudara dan melalui karya Tice, Gail, dan Barlow antara lain terlihat bahwa AUC 0,65 sangat menarik untuk model prediksi berbasis populasi yang memiliki prevalensi kurang dari 1-20 kasus kejadian per 5.000 orang-tahun berisiko menggunakan 7 faktor risiko yang memiliki RR btn 1,5 dan 3.
AdamO
6

Dengan kata sederhana .... model regresi logistik berlebih memiliki varians besar, berarti perubahan batas keputusan sebagian besar untuk perubahan kecil dalam besarnya variabel. mempertimbangkan mengikuti gambar yang paling tepat adalah model logistik berlebih, batas keputusannya tidak besar. pasang surut sedangkan middel hanya cocok itu memiliki varians moderat dan bias moderat. yang kiri pakaian dalam memiliki bias tinggi tetapi varians sangat sedikit. one more__ Model penyesalan berlebih memiliki terlalu banyak fitur sementara model pakaian dalam memiliki sangat sedikit tidak. fitur. gambar yang menunjukkan model resesi logistik underfit, justfit dan overfit.  Marker berwarna biru menunjukkan batas keputusan.

pengguna110267
sumber
8
Silakan tambahkan referensi untuk gambar (sebenarnya tentu saja Andrew Ng).
Alexander Rodin
5

Anda dapat mengenakan metode apa pun, bahkan jika Anda cocok dengan seluruh populasi (jika populasinya terbatas). Ada dua solusi umum untuk masalah ini: (1) menghukum estimasi kemungkinan maksimum (regresi ridge, jaring elastis, laso, dll) dan (2) penggunaan prior informatif dengan model Bayesian.

YYYY

Frank Harrell
sumber
4

Apakah ada model, selain regresi logistik, bahwa tidak mungkin untuk overfit?

Overfitting muncul secara mendasar karena Anda cocok dengan sampel & bukan seluruh populasi. Artefak sampel Anda bisa tampak seperti fitur populasi dan mereka tidak dan karenanya sakit berlebihan.

Ini mirip dengan pertanyaan tentang validitas eksternal. Hanya menggunakan sampel yang Anda coba dapatkan model yang memberi Anda kinerja terbaik pada populasi nyata yang tidak dapat Anda lihat.

Tentu, beberapa bentuk atau prosedur model lebih mungkin untuk berpakaian lebih dari yang lain tetapi tidak ada model yang benar-benar kebal dari overfitting, bukan?

Bahkan validasi out-of-sample, prosedur regularisasi dll. Hanya dapat menjaga dari over-fitting tetapi tidak ada peluru perak. Bahkan, jika seseorang memperkirakan kepercayaan diri seseorang dalam membuat prediksi dunia nyata berdasarkan model yang cocok, kita harus selalu berasumsi bahwa beberapa tingkat overfitting memang telah terjadi.

Sejauh mana mungkin bervariasi, tetapi bahkan sebuah model yang divalidasi pada data bertahan jarang akan menghasilkan kinerja liar yang cocok dengan apa yang diperoleh pada dataset tahan. Dan overfitting adalah faktor penyebab besar.

curious_cat
sumber
0

Apa yang kami lakukan dengan Roc untuk mengecek overfitting adalah memisahkan dataset secara acak dalam pelatihan dan penilaian dan membandingkan AUC antara kelompok-kelompok tersebut. Jika AUC "jauh" (tidak ada aturan praktis) lebih besar dalam pelatihan maka mungkin ada overfitting.

María Frances Gaska
sumber