Untuk mengajukan pertanyaan saya dengan lebih baik, saya telah menyediakan beberapa output dari model 16 variabel ( fit
) dan 17 model variabel ( fit2
) di bawah ini (semua variabel prediktor dalam model ini kontinu, di mana satu-satunya perbedaan antara model ini adalah yang fit
tidak mengandung variabel 17 (var17)):
fit Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703
0 69833 d.f. 17 g 1.150 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
fit2 Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13639.70 R2 0.174 C 0.703
0 69833 d.f. 18 g 1.154 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.170 gamma 0.412
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
Saya menggunakan rms
paket Frank Harrell untuk membangun lrm
model ini . Seperti yang Anda lihat, model-model ini tampaknya tidak banyak berbeda, jika sama sekali, di seluruh Indeks Diskriminasi dan Diskrim Peringkat. Indeks ; Namun, menggunakan lrtest(fit,fit2)
, saya diberi hasil sebagai berikut:
L.R. Chisq d.f. P
3.685374e+01 1.000000e+00 1.273315e-09
Dengan demikian, kami akan menolak hipotesis nol dari uji rasio kemungkinan ini; Namun, saya akan berasumsi ini kemungkinan karena ukuran sampel yang besar ( n = 102849) karena model ini tampil berkinerja serupa. Selain itu, saya tertarik untuk menemukan cara yang lebih baik untuk secara formal membandingkan model regresi logistik biner bersarang ketika n besar.
Saya sangat menghargai umpan balik, skrip R, atau dokumentasi yang dapat mengarahkan saya ke arah yang benar dalam hal membandingkan model-model bersarang jenis ini! Terima kasih!
sumber
fit2
ini adalah model variabel 17, tetapi juga model yang menghilangkanV17
. Anda mungkin ingin mengedit ini.fit2
kefit
dalam contoh di atas sesuai koreksi Anda. Terima kasih!Jawaban:
(1) Ada literatur yang luas tentang mengapa kita harus lebih suka model penuh daripada model terbatas / pelit. Pemahaman saya adalah beberapa alasan untuk lebih memilih model pelit. Namun, model yang lebih besar mungkin tidak layak untuk banyak aplikasi klinis.
(2) Sejauh yang saya tahu, indeks Diskriminasi / Diskriminasi tidak (? Tidak boleh) digunakan sebagai model / parameter pemilihan variabel. Mereka tidak dimaksudkan untuk penggunaan ini dan sebagai hasilnya mungkin tidak ada banyak literatur tentang mengapa mereka tidak boleh digunakan untuk membangun model.
(3) Model Parsimonious mungkin memiliki keterbatasan yang tidak mudah terlihat. Mereka mungkin kurang dikalibrasi dengan baik daripada model yang lebih besar, validitas eksternal / internal dapat dikurangi.
(4) Statistik c mungkin tidak optimal dalam menilai model yang memprediksi risiko masa depan atau mengelompokkan individu ke dalam kategori risiko. Dalam pengaturan ini, kalibrasi sama pentingnya dengan penilaian risiko yang akurat. Sebagai contoh, biomarker dengan rasio odds 3 mungkin memiliki sedikit efek pada cstatistic, namun peningkatan level dapat menggeser perkiraan risiko kardiovaskular 10-tahun untuk masing-masing pasien dari 8% menjadi 24%
Masak NR; Penggunaan dan penyalahgunaan kurva ROC dalam literatur medis. Sirkulasi. 115 2007: 928-935.
(5) AUC / c-statistik / diskriminasi diketahui tidak sensitif terhadap variabel prediktor yang signifikan. Ini dibahas dalam referensi Cook di atas, dan kekuatan pendorong di balik pengembangan indeks reklasifikasi bersih. Juga dibahas dalam Masak di atas.
(6) Kumpulan data besar masih dapat mengarah pada model yang lebih besar dari yang diinginkan jika metode pemilihan variabel standar digunakan. Dalam prosedur pemilihan bertahap, sering kali p-value cut-off 0,05 digunakan. Tetapi tidak ada yang intrinsik dengan nilai ini yang berarti Anda harus memilih nilai ini. Dengan dataset yang lebih kecil nilai p yang lebih besar (0,2) mungkin lebih tepat, dalam dataset yang lebih besar nilai p yang lebih kecil mungkin sesuai (0,01 digunakan untuk dataset GUSTO I karena alasan ini).
(7) Sementara AIC sering digunakan untuk pemilihan model, dan lebih baik didukung oleh literatur, BIC mungkin menjadi alternatif yang valid dalam kumpulan data yang lebih besar. Untuk pemilihan model BIC, kuadrat-ku harus melebihi log (n), sehingga akan menghasilkan model yang lebih kecil dalam kumpulan data yang lebih besar. (Mallow mungkin memiliki karakteristik serupa)
(8) Tetapi jika Anda hanya menginginkan maksimal 10 atau 12 variabel, solusi yang lebih mudah adalah sesuatu seperti
bestglm
atauleaps
paket jika Anda hanya mengatur jumlah maksimum variabel yang ingin Anda pertimbangkan.(9) jika Anda hanya ingin tes yang akan membuat kedua model terlihat sama, dan tidak terlalu khawatir tentang detailnya, Anda mungkin dapat membandingkan AUC dari kedua model. Beberapa paket bahkan akan memberi Anda nilai p untuk perbandingan. Sepertinya tidak disarankan.
Ambler G (2002) Menyederhanakan model prognostik: studi simulasi berdasarkan data klinis
Cook NR; Penggunaan dan penyalahgunaan kurva ROC dalam literatur medis. Sirkulasi. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Pada kriteria untuk mengevaluasi model risiko absolut. Biostat. 6 2005: 227-239.
(10) Setelah model telah dibangun, indeks c-statistik / penipisan mungkin bukan pendekatan terbaik untuk membandingkan model dan memiliki keterbatasan yang terdokumentasi dengan baik. Perbandingan seharusnya juga minimal mencakup kalibrasi, indeks reklasifikasi.
Steyerber (2010) Menilai kinerja model prediksi: kerangka kerja untuk beberapa tindakan tradisional dan baru
(11) Ini mungkin ide yang baik untuk melampaui dan menggunakan langkah-langkah analitik keputusan.
Vickers AJ, Elkin EB. Analisis kurva keputusan: metode baru untuk mengevaluasi model prediksi. Pembuatan Decis Med. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Menggunakan kurva utilitas relatif untuk mengevaluasi prediksi risiko. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Evaluasi Penanda dan Model Prediksi Risiko: Gambaran Umum Hubungan antara NRI dan Pengukuran Keputusan-Analitik. Pembuatan Decis Med. 2013; 33: 490-501
--- Perbarui --- Saya menemukan artikel Vickers yang paling menarik. Tetapi ini masih belum diterima secara luas meskipun banyak editorial. Jadi mungkin tidak banyak digunakan secara praktis. Artikel Cook dan Steyerberg jauh lebih praktis.
Tidak ada yang suka seleksi bertahap. Saya tentu tidak akan mengadvokasi untuk itu. Saya mungkin menekankan bahwa sebagian besar kritik stepwise mengasumsikan EPV <50 dan pilihan antara model penuh atau yang ditentukan sebelumnya dan model yang dikurangi. Jika EPV> 50 dan ada komitmen untuk model pengurangan, analisis biaya-manfaat mungkin berbeda.
Pikiran yang lemah di balik membandingkan c-statistik adalah bahwa mereka mungkin tidak berbeda dan saya ingat tes ini secara signifikan kurang bertenaga. Tapi sekarang saya tidak dapat menemukan referensi, jadi mungkin jauh dari itu.
sumber
bestglm
danleaps
paket sangat mahal secara komputasi dan membutuhkan waktu berhari-hari untuk dijalankan dengan dataset seperti yang saya gunakan, tetapi terima kasih atas ide-ide potensial.Salah satu pilihan adalah dengan menggunakan ukuran p-rseu semu untuk kedua model. Perbedaan yang kuat dalam pseudo R-square akan menyarankan bahwa model fit sangat menurun dengan menghilangkan V17.
Ada berbagai jenis Pseudo R-square yang tersedia. Tinjauan umum dapat ditemukan di sini, misalnya:
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm
Ukuran yang populer adalah Nagelkerke R-square. Ini bervariasi antara 0 dan 1 dan, dengan hati-hati, dapat ditafsirkan seperti R-kuadrat dari model regresi linier sederhana. Ini didasarkan pada rasio yang diubah dari estimasi kemungkinan model lengkap menjadi model intersep-only.
Anda dapat memperkirakannya untuk
fit
danfit2
, masing-masing, dan membandingkan ukuran relatif untuk mendapatkan indikasi tentang masalah Anda. Nagelkerke R-square yang jauh lebih tinggifit
akan menyarankan bahwafit2
kehilangan banyak daya prediksi dengan kelalaian V17.Dalam
lrm
satustats
nilai menyediakan Nagelkerke R-squared. Jadi memberifit$stats
harus memberi Anda perkiraan. Lihat juga?lrm
.sumber
fit
"? Dalam contoh di atas, ada perbedaan dari 0,001 seperti yang telah kita Nagelkerke R-square dari 0,173 dan 0,174 untukfit
danfit2
masing-masing. Apakah Anda memiliki referensi untuk apa "Nagelkerke R-Square" yang jauh lebih tinggi? Terima kasih!Saya baru saja membaca tentang ini. Cara yang tepat untuk melakukan ini adalah menggunakan output model akhir Rm glm dan mencari "Penyimpangan residual:" dan menurunkan delta antara dua model dan menggunakan nilai ini dalam uji chi-kuadrat menggunakan df sama dengan # istilah prediktor turun. Dan itu adalah nilai p Anda.
Pemodelan Regresi Terapan Iaian Pardoe edisi kedua 2012 hal 270
sumber