Saya melakukan regresi logistik multivariat dengan variabel dependen Y
adalah kematian di panti jompo dalam periode masuk tertentu dan mendapatkan hasil berikut (perhatikan jika variabel yang dimulai di A
dalamnya adalah nilai yang berkelanjutan sedangkan yang mulai dalam B
kategori):
Call:
glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0728 -0.2167 -0.1588 -0.1193 3.7788
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 20.048631 6.036637 3.321 0.000896 ***
A1 0.051167 0.016942 3.020 0.002527 **
B2 -0.664940 0.304299 -2.185 0.028878 *
B3 -2.825281 0.633072 -4.463 8.09e-06 ***
B4 -2.547931 0.957784 -2.660 0.007809 **
B5 -2.862460 1.385118 -2.067 0.038774 *
A6 -0.129808 0.041286 -3.144 0.001666 **
A7 0.020016 0.009456 2.117 0.034276 *
A8 -0.707924 0.253396 -2.794 0.005210 **
A9 0.003453 0.001549 2.229 0.025837 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 485.10 on 2206 degrees of freedom
Residual deviance: 417.28 on 2197 degrees of freedom
AIC: 437.28
Number of Fisher Scoring iterations: 7
(Intercept) A1 B2 B3 B4 B5 A6 A7 A8 A9
5.093426e+08 1.052499e+00 5.143045e-01 5.929197e-02 7.824340e-02 5.712806e-02 8.782641e-01 1.020218e+00 4.926657e-01 1.003459e+00
2.5 % 97.5 %
(Intercept) 3.703525e+03 7.004944e+13
A1 1.018123e+00 1.088035e+00
B2 2.832698e-01 9.337710e-01
B3 1.714448e-02 2.050537e-01
B4 1.197238e-02 5.113460e-01
B5 3.782990e-03 8.627079e-01
A6 8.099945e-01 9.522876e-01
A7 1.001484e+00 1.039302e+00
A8 2.998207e-01 8.095488e-01
A9 1.000416e+00 1.006510e+00
Seperti yang Anda lihat, semua variabel "signifikan" karena nilai p mereka di bawah ambang biasa 0,05. Namun melihat koefisien, saya tidak yakin apa yang membuat hasil ini. Tampaknya meskipun variabel-variabel ini berkontribusi pada model, melihat rasio odds, mereka tampaknya tidak benar-benar memiliki banyak kekuatan prediksi. Sebagai catatan, ketika saya menghitung AUC, saya mendapat sekitar 0,8.
Dapatkah saya mengatakan bahwa model ini lebih baik dalam memprediksi terhadap kematian (misalnya memprediksi bahwa manula akan hidup melewati periode yang ditentukan) dibandingkan dengan memprediksi kematian?
sumber
Jawaban:
Saya menyarankan agar Anda menggunakan paket rms yang sangat baik dari Frank Harrell . Ini berisi banyak fungsi yang berguna untuk memvalidasi dan mengkalibrasi model Anda. Sejauh yang saya tahu, Anda tidak dapat menilai kinerja prediksi hanya berdasarkan koefisien. Lebih lanjut, saya akan menyarankan Anda menggunakan bootstrap untuk memvalidasi model. AUC atau konkordansi-indeks (indeks-c) adalah ukuran yang berguna untuk kinerja prediksi. Indeks-c cukup tinggi tetapi seperti pada banyak model prediksi, kecocokan model Anda cenderung terlalu optimistik (overfitting). Overoptimisme ini dapat dinilai menggunakan bootstrap. Tapi izinkan saya memberi contoh:0.8
Di bagian bawah Anda melihat koefisien regresi biasa dengan nilai sesuai . Di kanan atas, Anda melihat beberapa indeks diskriminasi. Yang menunjukkan indeks-c (AUC), dan indeks-c dari menunjukkan pemisahan acak sedangkan indeks-c dari menunjukkan prediksi sempurna. adalah korelasi peringkat Somers antara probabilitas yang diprediksi dan respons yang diamati. memiliki hubungan sederhana dengan indeks-c: . Sebuah dari terjadi ketika prediksi model yang acak dan ketika , model sempurna diskriminasi. Dalam hal ini, indeks-c adalah0,5 1 D x y D x y D x y = 2 ( c - 0,5 ) D x y 0 D x y = 1 0,693 > 0,8p 0.5 1 Dxy Dxy Dxy=2(c−0.5) Dxy 0 Dxy=1 0.693 yang sedikit lebih baik dari kebetulan tetapi indeks-c cukup baik untuk memprediksi hasil individu.>0.8
C
Dxy
Seperti yang dikatakan di atas, model ini cenderung terlalu optimis. Kami sekarang menggunakan bootstrap untuk mengukur optimisme:
Mari kita berkonsentrasi pada yang ada di atas. Kolom pertama menunjukkan indeks asli, yaitu . Kolom yang disebut menunjukkan jumlah perkiraan yang terlalu tinggi oleh model. Kolom adalah perkiraan awal dikurangi optimisme. Dalam hal ini, yang bias dikoreksi sedikit lebih kecil dari aslinya. C-index bias-dikoreksi (AUC) adalah . 0,3857 D x y c = 1 + D x yDxy 0.3857 Dxy c=1+Dxy2=0.6749
optimism
index.corrected
Kami juga dapat menghitung kurva kalibrasi menggunakan resampling:
Plot memberikan beberapa bukti bahwa model kami overfitting: model meremehkan probabilitas rendah dan melebih-lebihkan probabilitas tinggi. Ada juga perkiraan yang terlalu sistematis sekitar .0.3
Pembuatan model prediktif adalah topik besar dan saya sarankan membaca catatan kursus Frank Harrell .
sumber
rms
paket @COOLSerdash dan Nick.Catatan tentang interpretasi koefisien: ingat mereka tergantung pada bagaimana prediktor ditulis sebagai angka. Jadi untuk variabel kontinu mereka bergantung pada unit di mana mereka diukur; untuk prediktor kategori, skema pengkodean. Jangan tergoda untuk berpikir bahwa, katakanlah, A9 'tidak penting' hanya karena koefisiennya 0,003453 kecil — A9 mungkin berkisar pada beberapa urutan besarnya dalam beberapa populasi yang diminati sementara prediktor lain hanya sedikit berbeda, atau mungkin saja mudah diatur ke nilai yang sangat tinggi atau rendah sementara yang lain sulit untuk berubah banyak.
sumber