Saya memiliki SPSS
output untuk model regresi logistik. Output melaporkan dua ukuran untuk model fit, Cox & Snell
dan Nagelkerke
.
Jadi sebagai patokan, tindakan R ^ ² ini yang akan Anda laporkan sesuai model?
Atau, yang mana dari indeks kesesuaian ini yang biasanya dilaporkan dalam jurnal?
Beberapa Latar Belakang: Regresi mencoba memprediksi ada tidaknya burung (capercaillie) dari beberapa variabel lingkungan (misalnya, kecuraman, tutupan vegetasi, ...). Sayangnya, burung itu tidak muncul terlalu sering (35 hits sampai 468 misses) sehingga kinerjanya agak buruk. Cox & Snell adalah .09, Nagelkerke, .23.
Subjeknya adalah ilmu lingkungan atau ekologi.
logistic
goodness-of-fit
r-squared
Henrik
sumber
sumber
Jawaban:
Biasanya saya tidak akan melaporkan sama sekali. Hosmer dan Lemeshow, dalam buku teksnya Applied Logistic Regression (2nd Ed.), Menjelaskan mengapa:R2
[Di hlm. 164.]
Mengenai berbagai versi ML dari , stat "pseudo ", mereka menyebutkan bahwa itu tidak "direkomendasikan untuk penggunaan rutin, karena secara intuitif tidak mudah untuk dijelaskan," tetapi mereka merasa berkewajiban untuk menggambarkannya karena berbagai paket perangkat lunak melaporkannya.R2 R2
Mereka menyimpulkan diskusi ini dengan menulis,
[Di hlm. 167.]
Pengalaman saya dengan beberapa model logistik besar (catatan 100 ribu hingga 300 ribu, 100 - 300 variabel penjelas) persis seperti yang dijelaskan H&L. Saya dapat mencapai relatif tinggi dengan data saya, hingga sekitar 0,40. Ini sesuai dengan tingkat kesalahan klasifikasi antara 3% dan 15% (negatif palsu dan positif palsu, seimbang, sebagaimana dikonfirmasi menggunakan 50% data set-out). Seperti yang ditunjukkan oleh H&L, saya harus menghabiskan banyak waktu untuk melecehkan klien (seorang konsultan canggih sendiri, yang akrab dengan ) tentang dan membuatnya fokus pada apa yang penting dalam analisis (kesalahan klasifikasi) tarif). Saya dengan hangat dapat merekomendasikan menggambarkan hasil analisis Anda tanpa referensi ke , yang lebih cenderung menyesatkan daripada tidak.R2 R2 R2 R2
sumber
Kedua indeks adalah ukuran kekuatan asosiasi (yaitu apakah ada prediktor terkait dengan hasil, seperti untuk tes LR), dan dapat digunakan untuk mengukur kemampuan prediksi atau kinerja model. Prediktor tunggal mungkin memiliki efek yang signifikan pada hasil tetapi mungkin tidak selalu berguna untuk memprediksi respon individu , maka kebutuhan untuk menilai kinerja model secara keseluruhan (wrt. The null model). Nagelkerke berguna karena memiliki nilai maksimum 1,0, seperti kata Srikant. Ini hanyalah versi normal dari dihitung dari rasio kemungkinan,R2 R2 R2LR=1−exp(−LR/n) , yang memiliki hubungan dengan statistik Wald untuk keseluruhan asosiasi, seperti yang awalnya diusulkan oleh Cox dan Snell. Indeks kemampuan prediktif lainnya adalah skor Brier, indeks C (probabilitas konkordansi atau area ROC), atau Somers 'D, dua yang terakhir memberikan ukuran yang lebih baik dari diskriminasi prediksi.
Satu-satunya asumsi yang dibuat dalam regresi logistik adalah linearitas dan aditivitas (+ independensi). Meskipun banyak tes global good-of-fit (seperti tes Hosmer & Lemeshow , tetapi lihat komentar saya untuk @onestop) telah diusulkan, mereka umumnya tidak memiliki daya. Untuk menilai kecocokan model, lebih baik bergantung pada kriteria visual (estimasi bertingkat, perataan nonparametrik) yang membantu untuk menemukan keberangkatan lokal atau global antara hasil yang diprediksi dan diamati (misalnya non-linearitas atau interaksi), dan ini sebagian besar dirinci dalam RMS Harrell selebaran . Pada subjek terkait (tes kalibrasi), Steyerberg ( Model Prediksi Klinisχ2 , 2009) menunjuk ke pendekatan yang sama untuk menilai perjanjian antara hasil yang diamati dan probabilitas yang diprediksi:
Dia juga menyarankan untuk mengandalkan perbedaan absolut antara hasil yang dihaluskan yang diamati dan probabilitas yang diprediksi baik secara visual, atau dengan apa yang disebut statistik Harrell's E.
Rincian lebih lanjut dapat ditemukan dalam buku Harrell, Regresi Modeling Strategies (hlm. 203-205, 230-244, 247-249). Untuk diskusi yang lebih baru, lihat juga
Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ, dan Kattan, MW (2010). Menilai Kinerja Model Prediksi, Kerangka Kerja untuk Tindakan Tradisional dan Novel . Epidemiologi , 21 (1) , 128-138.
sumber
Saya akan berpikir masalah utama dengan segala jenis ukuran untuk regresi logistik adalah bahwa Anda berurusan dengan model yang memiliki nilai noise yang diketahui. Ini tidak seperti regresi linier standar, di mana tingkat kebisingan biasanya diperlakukan sebagai tidak diketahui. Untuk kita dapat menulis fungsi densitas probabilitas glm sebagai:R2
Di mana Adalah fungsi yang dikenal, dan untuk fungsi tautan terbalik . Jika kita mendefinisikan residu penyimpangan GLM sepertib(.), c(.), d(.;.) μi=g−1(xTiβ) g−1(.)
Di mana adalah dimensi . Untuk regresi logistik kita memiliki , yang diketahui. Jadi kita dapat menggunakan ini untuk memutuskan tingkat residual tertentu yang "dapat diterima" atau "masuk akal". Ini biasanya tidak dapat dilakukan untuk regresi OLS (kecuali Anda memiliki informasi sebelumnya tentang kebisingan). Yaitu, kami berharap setiap sisa penyimpangan sekitar . Terlalu banyak dan kemungkinan ada efek penting yang hilang dari model (kurang pas); terlalu banyak dan kemungkinan ada efek berlebihan atau palsu dalam model (over-fitting). (Ini juga bisa berarti kesalahan spesifikasi model).p β ϕ=1 1 d2i≫1 d2i≪1
Sekarang ini berarti bahwa masalah untuk pseudo- adalah bahwa ia gagal untuk memperhitungkan bahwa tingkat variasi binomial dapat diprediksi (asalkan struktur kesalahan binomial tidak dipertanyakan). Jadi meskipun Nagelkerke berkisar dari hingga , masih belum diskalakan dengan benar. Selain itu, saya tidak dapat melihat mengapa ini disebut pseudo jika mereka tidak sama dengan ketika Anda memasukkan "GLM" dengan tautan identitas dan kesalahan normal. Sebagai contoh, ekuivalen cox-snell R-squared untuk kesalahan normal (menggunakan estimasi varian REML) diberikan oleh:R2 0 1 R2 R2
Yang pastinya terlihat aneh.
Saya pikir ukuran "Goodness of Fit" yang lebih baik adalah jumlah residu penyimpangan, . Ini terutama karena kami memiliki target untuk dibidik.χ2
sumber
Saya menemukan makalah pendek Tue Tjur "Koefisien Penentuan dalam Model Regresi Logistik - Proposal Baru: Koefisien Diskriminasi" (2009, The American Statistician ) tentang berbagai proposal untuk koefisien determinasi dalam model logistik yang cukup mencerahkan. Dia melakukan pekerjaan yang baik dengan menyoroti pro dan kontra - dan tentu saja menawarkan definisi baru. Sangat direkomendasikan (walaupun saya sendiri tidak punya favorit).
sumber
Saya juga akan mengatakan 'tidak satu pun dari mereka', jadi saya telah mengangkat jawaban whuber.
Serta mengkritik R ^ 2, Hosmer & Lemeshow memang mengusulkan ukuran alternatif good-of-fit untuk regresi logistik yang kadang-kadang berguna. Ini didasarkan pada membagi data menjadi (katakanlah) 10 kelompok dengan ukuran yang sama (atau sedekat mungkin) dengan memesan pada probabilitas yang diprediksi (atau yang setara, prediktor linier) kemudian membandingkan jumlah respons positif yang diamati dengan yang diharapkan dalam setiap kelompok. dan melakukan tes chi-squared. 'Tes kebaikan Hosmer-Lemeshow' ini diimplementasikan di sebagian besar paket perangkat lunak statistik.
sumber
Design
paket Frank Harrell menampilkan tes alternatif H&L 1 df.Saya lebih suka Nagelkerke karena model ini pas 1 ketika model cocok memberikan pembaca rasa seberapa jauh model Anda dari pas. Cox & Shell tidak mencapai 1 untuk kesesuaian model sempurna dan karenanya menafsirkan nilai 0,09 sedikit lebih sulit. Lihat url ini untuk info lebih lanjut tentang Pseudo RSquared untuk penjelasan tentang berbagai jenis kecocokan.
sumber
Terlepas dari argumen yang menentang penggunaan pseudo-r-squareds, beberapa orang akan karena berbagai alasan ingin terus menggunakannya setidaknya pada waktu-waktu tertentu. Apa yang telah saya internalisasi dari bacaan saya (dan saya minta maaf saya tidak dapat memberikan kutipan saat ini) adalah itu
jika keduanya di atas 0,5, Nag. akan; dan
jika mereka mengangkang 0,5, menyepak bola.
Juga, formula yang hasilnya sering jatuh di antara keduanya, disebutkan oleh Scott Menard dalam Analisis Regresi Logistik Terapan (Sage), adalah
Ini dilambangkan sebagai "L" pada grafik di bawah ini.
sumber