Ukuran pseudo- manakah yang harus dilaporkan untuk regresi logistik (Cox & Snell atau Nagelkerke)?

55

Saya memiliki SPSSoutput untuk model regresi logistik. Output melaporkan dua ukuran untuk model fit, Cox & Snelldan Nagelkerke.

Jadi sebagai patokan, R² tindakan R ^ ² ini yang akan Anda laporkan sesuai model?

Atau, yang mana dari indeks kesesuaian ini yang biasanya dilaporkan dalam jurnal?


Beberapa Latar Belakang: Regresi mencoba memprediksi ada tidaknya burung (capercaillie) dari beberapa variabel lingkungan (misalnya, kecuraman, tutupan vegetasi, ...). Sayangnya, burung itu tidak muncul terlalu sering (35 hits sampai 468 misses) sehingga kinerjanya agak buruk. Cox & Snell adalah .09, Nagelkerke, .23.

Subjeknya adalah ilmu lingkungan atau ekologi.

Henrik
sumber
3
Situs bantuan statistik UCLA yang sangat baik memiliki halaman yang luar biasa menjelaskan berbagai pseudo- R2 & bagaimana mereka terkait satu sama lain.
gung - Reinstate Monica
Berikut adalah dua tautan yang membahas algoritma non-parametrik yang tepat yang memaksimalkan keakuratan model regresi logistik. Jika Anda menggunakan metode ini dengan data Anda, itu akan meningkatkan kinerja klasifikasi model regresi logistik Anda ketika diterapkan pada sampel. Contoh 1: onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/… Contoh 2: epm.sagepub.com/content/54/1/73.abstract
user31256

Jawaban:

74

Biasanya saya tidak akan melaporkan sama sekali. Hosmer dan Lemeshow, dalam buku teksnya Applied Logistic Regression (2nd Ed.), Menjelaskan mengapa:R2

Secara umum, [ tindakan] didasarkan pada berbagai perbandingan dari nilai yang diprediksi dari model yang dipasang ke yang dari [model dasar], tidak ada data atau hanya mencegat model dan, sebagai hasilnya, tidak menilai kebaikan-dari -cocok. Kami berpikir bahwa ukuran fit yang sebenarnya adalah yang didasarkan pada perbandingan nilai yang diamati dengan yang diprediksi dari model yang dipasang.R2

[Di hlm. 164.]

Mengenai berbagai versi ML dari , stat "pseudo ", mereka menyebutkan bahwa itu tidak "direkomendasikan untuk penggunaan rutin, karena secara intuitif tidak mudah untuk dijelaskan," tetapi mereka merasa berkewajiban untuk menggambarkannya karena berbagai paket perangkat lunak melaporkannya.R2R2

Mereka menyimpulkan diskusi ini dengan menulis,

... nilai rendah dalam regresi logistik adalah norma dan ini menimbulkan masalah ketika melaporkan nilai mereka kepada audiens yang terbiasa melihat nilai regresi linier. ... Jadi [berdebat dengan referensi untuk menjalankan contoh dalam teks] kami tidak merekomendasikan penerbitan rutin nilai dengan hasil dari model logistik yang sesuai. Namun, mereka dapat membantu dalam kondisi pembangunan model sebagai statistik untuk mengevaluasi model yang bersaing.R2R2

[Di hlm. 167.]

Pengalaman saya dengan beberapa model logistik besar (catatan 100 ribu hingga 300 ribu, 100 - 300 variabel penjelas) persis seperti yang dijelaskan H&L. Saya dapat mencapai relatif tinggi dengan data saya, hingga sekitar 0,40. Ini sesuai dengan tingkat kesalahan klasifikasi antara 3% dan 15% (negatif palsu dan positif palsu, seimbang, sebagaimana dikonfirmasi menggunakan 50% data set-out). Seperti yang ditunjukkan oleh H&L, saya harus menghabiskan banyak waktu untuk melecehkan klien (seorang konsultan canggih sendiri, yang akrab dengan ) tentang dan membuatnya fokus pada apa yang penting dalam analisis (kesalahan klasifikasi) tarif). Saya dengan hangat dapat merekomendasikan menggambarkan hasil analisis Anda tanpa referensi ke , yang lebih cenderung menyesatkan daripada tidak.R2R2R2R2

whuber
sumber
1
(+1) Awalnya saya berpikir untuk memperluas respons saya (yang datang tepat setelah Anda), tapi pasti jawaban Anda mandiri.
chl
terima kasih untuk ini, membantu untuk proyek yang sedang saya kerjakan saat ini - dan sangat masuk akal
Brandon Bertelsen
1
@whuber: Saya juga cenderung condong ke arah klasifikasi yang benar. harga, tapi saya telah melihat banyak referensi dalam buku teks dan situs web memperingatkan analis untuk tidak mempercayai mereka dan menekankan bahwa pseudo-rsq, meskipun ada keterbatasan, adalah metrik yang lebih adil. Saya sering membaca sesuatu yang tampaknya sampai batas tertentu dalam analisis saya sendiri: bahwa dengan penambahan prediktor yang diberikan pseudo-rsq mungkin naik (dan metrik lainnya akan menunjukkan manfaat dari penambahan) sementara tingkat klasifikasi yang benar gagal, dan bahwa seseorang seharusnya tidak mempercayai yang terakhir. Sudahkah Anda memikirkan hal ini?
rolando2
4
@ rolando2 Ya, sudah. Hal ini menimbulkan pertanyaan tentang seberapa banyak pseudo- harus naik untuk membenarkan inklusi variabel. Saya menduga "tingkat klasifikasi yang benar" Anda mungkin merujuk pada tingkat dalam sampel , yang tentu saja bias. Jika itu benar, maka apa yang Anda baca hanya membandingkan dua statistik yang lebih rendah. The keluar dari sampel tingkat jauh lebih berguna indikator dari pseudo . R2R2
whuber
1
+1. Juga, untuk memperluas pada bagian halus dari jawaban Anda, Anda menyebutkan tingkat kesalahan klasifikasi , yang jamak dan tidak harus bingung dengan akurasi . Ada banyak jenis perhitungan yang dapat muncul dari matriks kebingungan - akurasi , tingkat positif palsu , presisi , dll - dan yang mana yang kita pedulikan bergantung pada aplikasinya. Juga, Anda membuat perbedaan out-of-sample , yang berbeda dari validasi silang , tetapi kadang-kadang bingung dengan itu.
Wayne
27

Kedua indeks adalah ukuran kekuatan asosiasi (yaitu apakah ada prediktor terkait dengan hasil, seperti untuk tes LR), dan dapat digunakan untuk mengukur kemampuan prediksi atau kinerja model. Prediktor tunggal mungkin memiliki efek yang signifikan pada hasil tetapi mungkin tidak selalu berguna untuk memprediksi respon individu , maka kebutuhan untuk menilai kinerja model secara keseluruhan (wrt. The null model). Nagelkerke berguna karena memiliki nilai maksimum 1,0, seperti kata Srikant. Ini hanyalah versi normal dari dihitung dari rasio kemungkinan,R2R2RLR2=1exp(LR/n), yang memiliki hubungan dengan statistik Wald untuk keseluruhan asosiasi, seperti yang awalnya diusulkan oleh Cox dan Snell. Indeks kemampuan prediktif lainnya adalah skor Brier, indeks C (probabilitas konkordansi atau area ROC), atau Somers 'D, dua yang terakhir memberikan ukuran yang lebih baik dari diskriminasi prediksi.

Satu-satunya asumsi yang dibuat dalam regresi logistik adalah linearitas dan aditivitas (+ independensi). Meskipun banyak tes global good-of-fit (seperti tes Hosmer & Lemeshow , tetapi lihat komentar saya untuk @onestop) telah diusulkan, mereka umumnya tidak memiliki daya. Untuk menilai kecocokan model, lebih baik bergantung pada kriteria visual (estimasi bertingkat, perataan nonparametrik) yang membantu untuk menemukan keberangkatan lokal atau global antara hasil yang diprediksi dan diamati (misalnya non-linearitas atau interaksi), dan ini sebagian besar dirinci dalam RMS Harrell selebaran . Pada subjek terkait (tes kalibrasi), Steyerberg ( Model Prediksi Klinisχ2, 2009) menunjuk ke pendekatan yang sama untuk menilai perjanjian antara hasil yang diamati dan probabilitas yang diprediksi:

Kalibrasi terkait dengan good-of-fit, yang berkaitan dengan kemampuan model agar sesuai dengan set data yang diberikan. Biasanya, tidak ada uji good-of-fit tunggal yang memiliki kekuatan yang baik terhadap semua jenis kurangnya kecocokan model prediksi. Contoh kurangnya kesesuaian adalah kehilangan non-linearitas, interaksi, atau fungsi tautan yang tidak sesuai antara prediktor linier dan hasilnya. Good-of-fit dapat diuji dengan statistik . (hal. 274)χ2

Dia juga menyarankan untuk mengandalkan perbedaan absolut antara hasil yang dihaluskan yang diamati dan probabilitas yang diprediksi baik secara visual, atau dengan apa yang disebut statistik Harrell's E.

Rincian lebih lanjut dapat ditemukan dalam buku Harrell, Regresi Modeling Strategies (hlm. 203-205, 230-244, 247-249). Untuk diskusi yang lebih baru, lihat juga

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ, dan Kattan, MW (2010). Menilai Kinerja Model Prediksi, Kerangka Kerja untuk Tindakan Tradisional dan Novel . Epidemiologi , 21 (1) , 128-138.

chl
sumber
dapatkah Anda menguraikan perbedaan antara "kebaikan cocok" dan kekuatan asosiasi atau kemampuan prediksi?
Andy W
@Andy Terima kasih telah menunjukkan itu. Saya menyadari setelah itu bahwa kalimat pertama saya tidak terdengar bagus. Saya akan memperbarui jawaban saya, tolong beri tahu saya jika Anda setuju.
chl
Terima kasih atas pembaruan dan itu menjelaskan perbedaan.
Andy W
21

Saya akan berpikir masalah utama dengan segala jenis ukuran untuk regresi logistik adalah bahwa Anda berurusan dengan model yang memiliki nilai noise yang diketahui. Ini tidak seperti regresi linier standar, di mana tingkat kebisingan biasanya diperlakukan sebagai tidak diketahui. Untuk kita dapat menulis fungsi densitas probabilitas glm sebagai:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

Di mana Adalah fungsi yang dikenal, dan untuk fungsi tautan terbalik . Jika kita mendefinisikan residu penyimpangan GLM sepertib(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
Yang kita miliki (melalui rasio kemungkinan chi-square, )χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

Di mana adalah dimensi . Untuk regresi logistik kita memiliki , yang diketahui. Jadi kita dapat menggunakan ini untuk memutuskan tingkat residual tertentu yang "dapat diterima" atau "masuk akal". Ini biasanya tidak dapat dilakukan untuk regresi OLS (kecuali Anda memiliki informasi sebelumnya tentang kebisingan). Yaitu, kami berharap setiap sisa penyimpangan sekitar . Terlalu banyak dan kemungkinan ada efek penting yang hilang dari model (kurang pas); terlalu banyak dan kemungkinan ada efek berlebihan atau palsu dalam model (over-fitting). (Ini juga bisa berarti kesalahan spesifikasi model).pβϕ=11di21di21

Sekarang ini berarti bahwa masalah untuk pseudo- adalah bahwa ia gagal untuk memperhitungkan bahwa tingkat variasi binomial dapat diprediksi (asalkan struktur kesalahan binomial tidak dipertanyakan). Jadi meskipun Nagelkerke berkisar dari hingga , masih belum diskalakan dengan benar. Selain itu, saya tidak dapat melihat mengapa ini disebut pseudo jika mereka tidak sama dengan ketika Anda memasukkan "GLM" dengan tautan identitas dan kesalahan normal. Sebagai contoh, ekuivalen cox-snell R-squared untuk kesalahan normal (menggunakan estimasi varian REML) diberikan oleh:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

Yang pastinya terlihat aneh.

Saya pikir ukuran "Goodness of Fit" yang lebih baik adalah jumlah residu penyimpangan, . Ini terutama karena kami memiliki target untuk dibidik.χ2

probabilityislogic
sumber
+1 Eksposisi yang bagus dari masalah yang diisyaratkan dalam komentar berikut jawaban Srikant .
whuber
Mengingat bahwa binomial GLM akan cocok menggunakan kuadrat terkecil yang berulang kali berulang, mengapa seseorang sebagai ukuran kualitas fit tidak melaporkan R2 dari fit kuadrat terkecil tertimbang dari iterasi IRLS terakhir yang sesuai dengan GLM? Seperti di stats.stackexchange.com/questions/412580/… ?
Tom Wenseleers
16

Saya menemukan makalah pendek Tue Tjur "Koefisien Penentuan dalam Model Regresi Logistik - Proposal Baru: Koefisien Diskriminasi" (2009, The American Statistician ) tentang berbagai proposal untuk koefisien determinasi dalam model logistik yang cukup mencerahkan. Dia melakukan pekerjaan yang baik dengan menyoroti pro dan kontra - dan tentu saja menawarkan definisi baru. Sangat direkomendasikan (walaupun saya sendiri tidak punya favorit).

S. Kolassa - Reinstate Monica
sumber
1
Terima kasih telah menunjukkan makalah itu; entah bagaimana saya melewatkannya (dan itu muncul ketika saya berada di tengah-tengah proyek regresi logistik besar!).
whuber
3
Sebagai catatan, definisi baru ini adalah , yang merupakan nilai perkiraan rata-rata untuk tanggapan dikurangi nilai perkiraan rata-rata untuk tanggapan. Itu dapat berkisar dari hingga . Tjur tidak menampik Nagelkerke semu , tapi menunjukkan ia tidak memiliki "daya tarik intuitif" dinikmati oleh . D=π^¯1π^¯01001R2D
whuber
8

Saya juga akan mengatakan 'tidak satu pun dari mereka', jadi saya telah mengangkat jawaban whuber.

Serta mengkritik R ^ 2, Hosmer & Lemeshow memang mengusulkan ukuran alternatif good-of-fit untuk regresi logistik yang kadang-kadang berguna. Ini didasarkan pada membagi data menjadi (katakanlah) 10 kelompok dengan ukuran yang sama (atau sedekat mungkin) dengan memesan pada probabilitas yang diprediksi (atau yang setara, prediktor linier) kemudian membandingkan jumlah respons positif yang diamati dengan yang diharapkan dalam setiap kelompok. dan melakukan tes chi-squared. 'Tes kebaikan Hosmer-Lemeshow' ini diimplementasikan di sebagian besar paket perangkat lunak statistik.

onestop
sumber
3
Asli HL tes GOF tidak sangat kuat untuk itu tergantung pada mengelompokkan skala prediktor terus menerus ke jumlah sewenang-wenang kelompok; H & L mengusulkan untuk mempertimbangkan decile, tetapi jelas itu tergantung pada ukuran sampel, dan dalam beberapa keadaan (misalnya model IRT) Anda sering memiliki sangat sedikit orang di salah satu atau kedua ujung skala sehingga cutoff tidak diberi jarak yang tidak sama. Lihat perbandingan uji good-of-fit untuk model regresi logistik, Stat. Med. 1997 16 (9): 965, j.mp/aV2W6Iχ2
chl
Terima kasih chi, itu referensi yang berguna, meskipun tautan j.mp Anda membawa saya ke prompt masuk BiblioInserm. Berikut ini tautan berbasis doi: dx.doi.org/10.1002/…
onestop
Maaf untuk tautan yang salah ... Sepertinya saya ingat Designpaket Frank Harrell menampilkan tes alternatif H&L 1 df.
chl
3

Saya lebih suka Nagelkerke karena model ini pas 1 ketika model cocok memberikan pembaca rasa seberapa jauh model Anda dari pas. Cox & Shell tidak mencapai 1 untuk kesesuaian model sempurna dan karenanya menafsirkan nilai 0,09 sedikit lebih sulit. Lihat url ini untuk info lebih lanjut tentang Pseudo RSquared untuk penjelasan tentang berbagai jenis kecocokan.


sumber
8
"Kecocokan sempurna" jauh dari dapat dicapai dalam setiap regresi logistik realistis yang tampaknya tidak adil untuk menggunakannya sebagai referensi atau standar.
whuber
1
@whuber Benar tetapi Anda dapat menggunakan standar untuk membandingkan kinerja relatif dari dua model yang bersaing. Poin R ^ 2 Anda yang rendah dalam jawaban Anda dan implikasinya adalah poin yang baik tetapi jika Anda memiliki (misalnya, pengulas menuntutnya dll) untuk menggunakan beberapa bentuk R ^ 2 maka Nagelkerke lebih disukai.
1
@Skridant Ya, masih masalah pengulas yang ingin melihat koreksi dan Bonferroni di mana-mana ...R2
chl
@ Srikant, @chl: Pembacaan sinis dari utas ini akan menyarankan hanya memilih R ^ 2 terbesar di antara semua laporan perangkat lunak ;-).
whuber
2
@chl Menawarkan push-back kepada pengulas / klien tentu saja diperlukan tetapi terkadang kita juga harus pragmatis. Jika pembaca tidak salah menafsirkan rendah R ^ 2 sebagai kurangnya kinerja model yang memadai maka masalah yang diangkat oleh @whuber akan dikurangi sampai batas tertentu.
3

Terlepas dari argumen yang menentang penggunaan pseudo-r-squareds, beberapa orang akan karena berbagai alasan ingin terus menggunakannya setidaknya pada waktu-waktu tertentu. Apa yang telah saya internalisasi dari bacaan saya (dan saya minta maaf saya tidak dapat memberikan kutipan saat ini) adalah itu

  • jika C&S dan Nag. di bawah 0,5, C&S akan menjadi ukuran yang lebih baik;
    jika keduanya di atas 0,5, Nag. akan; dan
    jika mereka mengangkang 0,5, menyepak bola.

Juga, formula yang hasilnya sering jatuh di antara keduanya, disebutkan oleh Scott Menard dalam Analisis Regresi Logistik Terapan (Sage), adalah

[-2LL0 - (-2LL1)]/-2LL0.

Ini dilambangkan sebagai "L" pada grafik di bawah ini.

masukkan deskripsi gambar di sini

rolando2
sumber
Apa yang ditunjukkan gambar ini (apa artinya sumbu horizontal)? Juga, bagaimana rumus terakhir (yang terlihat seperti statistik rasio kemungkinan berskala) berbeda dari Nagelkerke sebenarnya? R2
chl
Analisis #: Saya mencoba berbagai analisis dengan kumpulan data yang berbeda. Tidak memiliki formula Nagelkerke berguna tetapi saya yakin itu sudah tersedia.
rolando2
Paul Allison membahas rumus Nagelkerke, yang merupakan rumus Cox & Snell yang disesuaikan ke atas, di Statisticalhorizons.com/2013/02 . Setelah membaca blog itu, dan umumnya dalam 2-3 tahun sejak sebagian besar diskusi ini terjadi, saya menjadi lebih yakin bahwa perkiraan Cox & Snell yang menjelaskan perbedaan dan bahwa saya lebih baik rata-rata C&S dan hasil Nagelkerke.
rolando2