Membandingkan model regresi logistik biner bersarang ketika

10

Untuk mengajukan pertanyaan saya dengan lebih baik, saya telah menyediakan beberapa output dari model 16 variabel ( fit) dan 17 model variabel ( fit2) di bawah ini (semua variabel prediktor dalam model ini kontinu, di mana satu-satunya perbedaan antara model ini adalah yang fittidak mengandung variabel 17 (var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

Saya menggunakan rmspaket Frank Harrell untuk membangun lrmmodel ini . Seperti yang Anda lihat, model-model ini tampaknya tidak banyak berbeda, jika sama sekali, di seluruh Indeks Diskriminasi dan Diskrim Peringkat. Indeks ; Namun, menggunakan lrtest(fit,fit2), saya diberi hasil sebagai berikut:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

Dengan demikian, kami akan menolak hipotesis nol dari uji rasio kemungkinan ini; Namun, saya akan berasumsi ini kemungkinan karena ukuran sampel yang besar ( n = 102849) karena model ini tampil berkinerja serupa. Selain itu, saya tertarik untuk menemukan cara yang lebih baik untuk secara formal membandingkan model regresi logistik biner bersarang ketika n besar.

Saya sangat menghargai umpan balik, skrip R, atau dokumentasi yang dapat mengarahkan saya ke arah yang benar dalam hal membandingkan model-model bersarang jenis ini! Terima kasih!

Matt Reichenbach
sumber
Apa tujuan menghapus variabel 17?
Michael M
Ini adalah contoh mainan; Namun, saya biasanya diminta untuk membangun model dengan 8-12 variabel, dan menghapus variabel yang tidak berkontribusi pada model adalah minat utama bagi saya. Variabel 17 hanya tampak sangat kecil artinya bagi model secara keseluruhan (dalam hal prediktabilitas), namun uji rasio kemungkinan memberi tahu kita ada perbedaan yang signifikan antara kedua model (kemungkinan karena besar n daripada perbedaan aktual dalam model ini). dua model). Karena itu, saya berharap menemukan cara untuk membandingkan kedua model ini (menemukan metode yang tidak menunjukkan perbedaan antara kedua model ini)
Matt Reichenbach
(1) tidak yakin saya cukup mengerti apa yang Anda cari. Tetapi dalam kedokteran masalah dengan menggunakan diskriminasi seperti c-statistik sudah mapan, c-statika dapat tidak berubah bahkan dengan penambahan variabel yang signifikan, dan telah mengarah pada pengembangan indeks klasifikasi ulang ( circ.ahajournals.org/content/121/15/ 1768.full ) (2) apakah AIC / BIC serupa? sejumlah kriteria perolehan informasi variabel mungkin lebih bermanfaat daripada kriteria diskriminasi.
charles
1
Saya pikir ada kesalahan ketik pada paragraf 1 Anda. Dinyatakan bahwa fit2ini adalah model variabel 17, tetapi juga model yang menghilangkan V17. Anda mungkin ingin mengedit ini.
tomka
1
@ Tomka, saya berubah fit2ke fitdalam contoh di atas sesuai koreksi Anda. Terima kasih!
Matt Reichenbach

Jawaban:

6

(1) Ada literatur yang luas tentang mengapa kita harus lebih suka model penuh daripada model terbatas / pelit. Pemahaman saya adalah beberapa alasan untuk lebih memilih model pelit. Namun, model yang lebih besar mungkin tidak layak untuk banyak aplikasi klinis.

(2) Sejauh yang saya tahu, indeks Diskriminasi / Diskriminasi tidak (? Tidak boleh) digunakan sebagai model / parameter pemilihan variabel. Mereka tidak dimaksudkan untuk penggunaan ini dan sebagai hasilnya mungkin tidak ada banyak literatur tentang mengapa mereka tidak boleh digunakan untuk membangun model.

(3) Model Parsimonious mungkin memiliki keterbatasan yang tidak mudah terlihat. Mereka mungkin kurang dikalibrasi dengan baik daripada model yang lebih besar, validitas eksternal / internal dapat dikurangi.

(4) Statistik c mungkin tidak optimal dalam menilai model yang memprediksi risiko masa depan atau mengelompokkan individu ke dalam kategori risiko. Dalam pengaturan ini, kalibrasi sama pentingnya dengan penilaian risiko yang akurat. Sebagai contoh, biomarker dengan rasio odds 3 mungkin memiliki sedikit efek pada cstatistic, namun peningkatan level dapat menggeser perkiraan risiko kardiovaskular 10-tahun untuk masing-masing pasien dari 8% menjadi 24%

Masak NR; Penggunaan dan penyalahgunaan kurva ROC dalam literatur medis. Sirkulasi. 115 2007: 928-935.

(5) AUC / c-statistik / diskriminasi diketahui tidak sensitif terhadap variabel prediktor yang signifikan. Ini dibahas dalam referensi Cook di atas, dan kekuatan pendorong di balik pengembangan indeks reklasifikasi bersih. Juga dibahas dalam Masak di atas.

(6) Kumpulan data besar masih dapat mengarah pada model yang lebih besar dari yang diinginkan jika metode pemilihan variabel standar digunakan. Dalam prosedur pemilihan bertahap, sering kali p-value cut-off 0,05 digunakan. Tetapi tidak ada yang intrinsik dengan nilai ini yang berarti Anda harus memilih nilai ini. Dengan dataset yang lebih kecil nilai p yang lebih besar (0,2) mungkin lebih tepat, dalam dataset yang lebih besar nilai p yang lebih kecil mungkin sesuai (0,01 digunakan untuk dataset GUSTO I karena alasan ini).

(7) Sementara AIC sering digunakan untuk pemilihan model, dan lebih baik didukung oleh literatur, BIC mungkin menjadi alternatif yang valid dalam kumpulan data yang lebih besar. Untuk pemilihan model BIC, kuadrat-ku harus melebihi log (n), sehingga akan menghasilkan model yang lebih kecil dalam kumpulan data yang lebih besar. (Mallow mungkin memiliki karakteristik serupa)

(8) Tetapi jika Anda hanya menginginkan maksimal 10 atau 12 variabel, solusi yang lebih mudah adalah sesuatu seperti bestglmatau leapspaket jika Anda hanya mengatur jumlah maksimum variabel yang ingin Anda pertimbangkan.

(9) jika Anda hanya ingin tes yang akan membuat kedua model terlihat sama, dan tidak terlalu khawatir tentang detailnya, Anda mungkin dapat membandingkan AUC dari kedua model. Beberapa paket bahkan akan memberi Anda nilai p untuk perbandingan. Sepertinya tidak disarankan.

Ambler G (2002) Menyederhanakan model prognostik: studi simulasi berdasarkan data klinis
Cook NR; Penggunaan dan penyalahgunaan kurva ROC dalam literatur medis. Sirkulasi. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Pada kriteria untuk mengevaluasi model risiko absolut. Biostat. 6 2005: 227-239.

(10) Setelah model telah dibangun, indeks c-statistik / penipisan mungkin bukan pendekatan terbaik untuk membandingkan model dan memiliki keterbatasan yang terdokumentasi dengan baik. Perbandingan seharusnya juga minimal mencakup kalibrasi, indeks reklasifikasi.

Steyerber (2010) Menilai kinerja model prediksi: kerangka kerja untuk beberapa tindakan tradisional dan baru

(11) Ini mungkin ide yang baik untuk melampaui dan menggunakan langkah-langkah analitik keputusan.

Vickers AJ, Elkin EB. Analisis kurva keputusan: metode baru untuk mengevaluasi model prediksi. Pembuatan Decis Med. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Menggunakan kurva utilitas relatif untuk mengevaluasi prediksi risiko. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Evaluasi Penanda dan Model Prediksi Risiko: Gambaran Umum Hubungan antara NRI dan Pengukuran Keputusan-Analitik. Pembuatan Decis Med. 2013; 33: 490-501

--- Perbarui --- Saya menemukan artikel Vickers yang paling menarik. Tetapi ini masih belum diterima secara luas meskipun banyak editorial. Jadi mungkin tidak banyak digunakan secara praktis. Artikel Cook dan Steyerberg jauh lebih praktis.

Tidak ada yang suka seleksi bertahap. Saya tentu tidak akan mengadvokasi untuk itu. Saya mungkin menekankan bahwa sebagian besar kritik stepwise mengasumsikan EPV <50 dan pilihan antara model penuh atau yang ditentukan sebelumnya dan model yang dikurangi. Jika EPV> 50 dan ada komitmen untuk model pengurangan, analisis biaya-manfaat mungkin berbeda.

Pikiran yang lemah di balik membandingkan c-statistik adalah bahwa mereka mungkin tidak berbeda dan saya ingat tes ini secara signifikan kurang bertenaga. Tapi sekarang saya tidak dapat menemukan referensi, jadi mungkin jauh dari itu.

charles
sumber
(1) Saya sadar bahwa model penuh lebih disukai, tetapi saya memiliki lebih dari 1k vars untuk dipilih dan saya diminta untuk membangun model yang lebih kecil ini karena persyaratan khusus industri. (2) Masuk akal! (3) Setuju! (4) Benar (5) Menarik
Matt Reichenbach
(6) Setuju; Namun, prosedur bertahap sangat dipertanyakan, dan semakin rendah nilai p cut, semakin bias jenis model ini, terlepas dari ukuran sampel. (7) "Untuk pemilihan model BIC chi-squared harus melebihi log (n)", ini tampaknya sangat berguna. Terima kasih! (8) bestglmdan leapspaket sangat mahal secara komputasi dan membutuhkan waktu berhari-hari untuk dijalankan dengan dataset seperti yang saya gunakan, tetapi terima kasih atas ide-ide potensial.
Matt Reichenbach
(9) Nilai- p ini akan signifikan bahkan jika modelnya hampir persis sama karena ukuran sampel yang besar saja. (10) Saya perlu lebih banyak meneliti kalibrasi dan indeks reklasifikasi, terima kasih! (11) Saya sangat tertarik untuk membaca artikel-artikel ini, apakah Anda merekomendasikan saya untuk mulai dengan Vickers? Terima kasih!
Matt Reichenbach
5

Salah satu pilihan adalah dengan menggunakan ukuran p-rseu semu untuk kedua model. Perbedaan yang kuat dalam pseudo R-square akan menyarankan bahwa model fit sangat menurun dengan menghilangkan V17.

Ada berbagai jenis Pseudo R-square yang tersedia. Tinjauan umum dapat ditemukan di sini, misalnya:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Ukuran yang populer adalah Nagelkerke R-square. Ini bervariasi antara 0 dan 1 dan, dengan hati-hati, dapat ditafsirkan seperti R-kuadrat dari model regresi linier sederhana. Ini didasarkan pada rasio yang diubah dari estimasi kemungkinan model lengkap menjadi model intersep-only.

Anda dapat memperkirakannya untuk fitdan fit2, masing-masing, dan membandingkan ukuran relatif untuk mendapatkan indikasi tentang masalah Anda. Nagelkerke R-square yang jauh lebih tinggi fitakan menyarankan bahwa fit2kehilangan banyak daya prediksi dengan kelalaian V17.

Dalam lrmsatu statsnilai menyediakan Nagelkerke R-squared. Jadi memberi fit$statsharus memberi Anda perkiraan. Lihat juga ?lrm.

Tomka
sumber
Saya akrab dengan R-square Nagelkerke; Namun, pertanyaan saya terletak pada apakah "Nagelkerke R-Square yang jauh lebih tinggi untuk fit"? Dalam contoh di atas, ada perbedaan dari 0,001 seperti yang telah kita Nagelkerke R-square dari 0,173 dan 0,174 untuk fitdan fit2masing-masing. Apakah Anda memiliki referensi untuk apa "Nagelkerke R-Square" yang jauh lebih tinggi? Terima kasih!
Matt Reichenbach
@Matt: Saya pikir tidak ada pedoman umum untuk menafsirkan Nagelkerke's R² atau pseudo R² lainnya. Namun, perhatikan bahwa ini adalah ukuran transformasi 'pengurangan kemungkinan' dengan memasukkan kovariat ke model intersep saja, yang membuatnya mirip dengan 'varians yang dijelaskan' yang ditunjukkan oleh standar R² dalam regresi linier. Dalam hal itu, saya akan menafsirkan perbedaan .173 / .174 sebagai sangat kecil. Perbedaan yang lebih kuat adalah sth. menjembatani desil. Namun, saya menyarankan untuk memperkirakan ukuran p² R² lain, misalnya McFadden atau Cox / Snell untuk memeriksa ketangguhan kesimpulan ini.
tomka
Saya setuju bahwa perbedaan sangat kecil, tetapi saya berharap saya dapat menemukan referensi yang menyatakan perbedaan "kecil" itu ... Saya sangat menghargai pikiran Anda. Terima kasih lagi!
Matt Reichenbach
1
tidak masalah! maaf karena tidak membatalkan Anda lebih cepat! Saya akan memposting lagi, jika saya menemukan jawaban untuk apa perbedaan "kecil" dalam hal pseduo R-squared! Terima kasih!
Matt Reichenbach
-1

Saya baru saja membaca tentang ini. Cara yang tepat untuk melakukan ini adalah menggunakan output model akhir Rm glm dan mencari "Penyimpangan residual:" dan menurunkan delta antara dua model dan menggunakan nilai ini dalam uji chi-kuadrat menggunakan df sama dengan # istilah prediktor turun. Dan itu adalah nilai p Anda.

Pemodelan Regresi Terapan Iaian Pardoe edisi kedua 2012 hal 270

ini tidak
sumber