Apakah mungkin untuk mengenakan model regresi logistik? Saya melihat video yang mengatakan bahwa jika area saya di bawah kurva ROC lebih tinggi dari 95%, maka kemungkinan besar akan terlalu pas, tetapi apakah mungkin untuk mengenakan model regresi logistik?
logistic
overfitting
regression-strategies
carlosedubarreto
sumber
sumber
Jawaban:
Ya, Anda bisa mengenakan model regresi logistik. Tapi pertama-tama, saya ingin membahas poin tentang AUC (Area Di Bawah Kurva Karakteristik Operasi Penerima): Tidak ada aturan praktis praktis dengan AUC, yang pernah ada.
Apa itu AUC adalah probabilitas bahwa sampel positif acak (atau kasus) akan memiliki nilai penanda lebih tinggi daripada negatif (atau kontrol) karena AUC secara matematis setara dengan statistik U.
Apa yang tidak AUC adalah ukuran standar dari akurasi prediksi. Peristiwa yang sangat deterministik dapat memiliki AUC prediktor tunggal 95% atau lebih tinggi (seperti dalam mekatronika terkontrol, robotika, atau optik), beberapa model prediksi risiko logistik multivariabel yang kompleks memiliki AUC 64% atau lebih rendah seperti prediksi risiko kanker payudara, dan tingkat akurasi prediksi yang tinggi.
Nilai AUC yang masuk akal, seperti halnya dengan analisis kekuatan, ditentukan sebelumnya dengan mengumpulkan pengetahuan tentang latar belakang dan tujuan penelitian apriori . Dokter / insinyur menjelaskan apa yang mereka inginkan, dan Anda, ahli statistik, menentukan nilai AUC target untuk model prediksi Anda. Kemudian mulailah penyelidikan.
Memang mungkin untuk mengenakan model regresi logistik. Selain dari ketergantungan linier (jika matriks model memiliki peringkat kekurangan), Anda juga dapat memiliki konkordansi sempurna, atau itu adalah plot nilai yang dipasang terhadap Y yang membedakan kasus dan kontrol dengan sempurna. Dalam hal ini, parameter Anda belum konvergen tetapi hanya berada di suatu tempat di ruang batas yang memberikan kemungkinan . Namun, kadang-kadang, AUC adalah 1 secara kebetulan saja.∞
Ada jenis bias lain yang muncul dari menambahkan terlalu banyak prediktor ke model, dan itu bias sampel kecil. Secara umum, rasio odds log dari model regresi logistik cenderung ke arah faktor bias karena non-collapability dari rasio odds dan jumlah sel nol. Dalam kesimpulan, ini ditangani menggunakan regresi logistik bersyarat untuk mengontrol variabel pengganggu dan presisi dalam analisis bertingkat. Namun, dalam prediksi, Anda adalah SOOL. Tidak ada prediksi yang dapat digeneralisasikan ketika Anda memiliki , ( ) karena Anda dijamin telah memodelkan "data" dan tidak "tren" pada saat itu. Dimensi tinggi ( besarp ≫ n π ( 1 - π ) π = Prob ( Y = 1 )2 β p ≫ n π( 1 - π) π= Prob ( Y= 1 ) hal ) prediksi hasil biner lebih baik dilakukan dengan metode pembelajaran mesin. Memahami analisis diskriminan linier, kuadrat terkecil parsial, prediksi tetangga terdekat, peningkatan, dan hutan acak akan menjadi tempat yang sangat baik untuk memulai.
sumber
Dengan kata sederhana .... model regresi logistik berlebih memiliki varians besar, berarti perubahan batas keputusan sebagian besar untuk perubahan kecil dalam besarnya variabel. mempertimbangkan mengikuti gambar yang paling tepat adalah model logistik berlebih, batas keputusannya tidak besar. pasang surut sedangkan middel hanya cocok itu memiliki varians moderat dan bias moderat. yang kiri pakaian dalam memiliki bias tinggi tetapi varians sangat sedikit. one more__ Model penyesalan berlebih memiliki terlalu banyak fitur sementara model pakaian dalam memiliki sangat sedikit tidak. fitur.
sumber
Anda dapat mengenakan metode apa pun, bahkan jika Anda cocok dengan seluruh populasi (jika populasinya terbatas). Ada dua solusi umum untuk masalah ini: (1) menghukum estimasi kemungkinan maksimum (regresi ridge, jaring elastis, laso, dll) dan (2) penggunaan prior informatif dengan model Bayesian.
sumber
Apakah ada model, selain regresi logistik, bahwa tidak mungkin untuk overfit?
Overfitting muncul secara mendasar karena Anda cocok dengan sampel & bukan seluruh populasi. Artefak sampel Anda bisa tampak seperti fitur populasi dan mereka tidak dan karenanya sakit berlebihan.
Ini mirip dengan pertanyaan tentang validitas eksternal. Hanya menggunakan sampel yang Anda coba dapatkan model yang memberi Anda kinerja terbaik pada populasi nyata yang tidak dapat Anda lihat.
Tentu, beberapa bentuk atau prosedur model lebih mungkin untuk berpakaian lebih dari yang lain tetapi tidak ada model yang benar-benar kebal dari overfitting, bukan?
Bahkan validasi out-of-sample, prosedur regularisasi dll. Hanya dapat menjaga dari over-fitting tetapi tidak ada peluru perak. Bahkan, jika seseorang memperkirakan kepercayaan diri seseorang dalam membuat prediksi dunia nyata berdasarkan model yang cocok, kita harus selalu berasumsi bahwa beberapa tingkat overfitting memang telah terjadi.
Sejauh mana mungkin bervariasi, tetapi bahkan sebuah model yang divalidasi pada data bertahan jarang akan menghasilkan kinerja liar yang cocok dengan apa yang diperoleh pada dataset tahan. Dan overfitting adalah faktor penyebab besar.
sumber
Apa yang kami lakukan dengan Roc untuk mengecek overfitting adalah memisahkan dataset secara acak dalam pelatihan dan penilaian dan membandingkan AUC antara kelompok-kelompok tersebut. Jika AUC "jauh" (tidak ada aturan praktis) lebih besar dalam pelatihan maka mungkin ada overfitting.
sumber