Saya memiliki model regresi logistik biner dengan pseudo R-kuadrat McFadden dari 0,192 dengan variabel dependen yang disebut pembayaran (1 = pembayaran dan 0 = tidak ada pembayaran). Apa interpretasi pseudo R-squared ini?
Apakah ini perbandingan relatif untuk model bersarang (misalnya model 6 variabel memiliki pseudo R-kuadrat McFadden sebesar 0,192, sedangkan model variabel 5 (setelah menghapus satu variabel dari model variabel 6 yang disebutkan sebelumnya), model 5 variabel ini memiliki pseudo R -dibandingkan dengan 0,131. Apakah kita ingin mempertahankan variabel ke-6 dalam model?) atau apakah itu kuantitas absolut (misalnya model tertentu yang memiliki pseudo R-kuadrat McFadden dari 0,192 lebih baik daripada model yang ada dengan pseudo McFadden R-squared dari 0,180 (bahkan untuk model yang tidak bersarang)? Ini hanya cara yang mungkin untuk melihat pseudo R-squared McFadden; namun, saya berasumsi dua pandangan ini jauh, sehingga alasan mengapa saya mengajukan pertanyaan ini di sini.
Saya telah melakukan banyak penelitian tentang topik ini, dan saya belum menemukan jawaban yang saya cari dalam hal mampu menafsirkan pseudo R-kuadrat McFadden dari 0,192. Setiap wawasan dan / atau referensi sangat dihargai! Sebelum menjawab pertanyaan ini, saya menyadari bahwa ini bukan ukuran terbaik untuk menggambarkan model regresi logistik, tetapi saya ingin memiliki pemahaman yang lebih besar tentang statistik ini!
sumber
McFadden's R squared didefinisikan sebagai 1-l_mod / l_null, di mana l_mod adalah nilai kemungkinan log untuk model pas dan l_null adalah kemungkinan log untuk model nol yang hanya menyertakan intersep sebagai prediktor (sehingga setiap individu diprediksi memiliki probabilitas yang sama) dari 'kesuksesan').
Untuk model regresi logistik, nilai kemungkinan log selalu negatif (karena kontribusi kemungkinan dari setiap pengamatan adalah probabilitas antara 0 dan 1). Jika model Anda tidak benar-benar memprediksi hasil yang lebih baik daripada model nol, l_mod tidak akan jauh lebih besar dari l_null, sehingga l_mod / l_null kira-kira 1, dan McFadden's R kuadrat mendekati 0 (model Anda tidak memiliki nilai prediktif) .
Sebaliknya jika model Anda benar-benar baik, orang-orang dengan hasil (1) yang sukses akan memiliki probabilitas yang pas mendekati 1, dan sebaliknya bagi mereka dengan hasil (0) yang gagal. Dalam hal ini jika Anda menjalani perhitungan kemungkinan kontribusi kemungkinan dari setiap individu untuk model Anda akan mendekati nol, sehingga l_mod mendekati nol, dan McFadden's R kuadrat mendekati 1, menunjukkan kemampuan prediksi yang sangat baik.
Mengenai apa yang dapat dianggap sebagai nilai yang baik, pandangan pribadi saya adalah bahwa seperti pertanyaan serupa dalam statistik (misalnya apa yang merupakan korelasi besar?), Apakah itu tidak pernah menjadi jawaban yang pasti. Tahun lalu saya menulis posting blog tentang McFadden's R kuadrat dalam regresi logistik, yang memiliki beberapa ilustrasi simulasi lebih lanjut.
sumber
Saya melakukan penelitian yang lebih fokus pada topik ini, dan saya menemukan bahwa interpretasi pseudo R-kuadrat McFadden (juga dikenal sebagai indeks rasio kemungkinan) tidak jelas; namun, dapat berkisar dari 0 hingga 1, tetapi tidak akan pernah mencapai atau melebihi 1 sebagai hasil perhitungannya.
Aturan praktis yang saya temukan sangat membantu adalah bahwa pseudo R-kuadrat McFadden mulai dari 0,2 hingga 0,4 menunjukkan model yang sangat cocok. Dengan demikian, model yang disebutkan di atas dengan pseudo R-kuadrat McFadden dari 0,192 kemungkinan bukan model yang mengerikan, setidaknya dengan metrik ini, tetapi juga tidak terlalu kuat.
Penting juga untuk dicatat bahwa pseudo R-squared McFadden paling baik digunakan untuk membandingkan spesifikasi berbeda dari model yang sama (yaitu model bersarang). Mengacu pada contoh tersebut, model 6 variabel (pseudo R-kuadrat McFadden = 0,192) cocok dengan data lebih baik daripada model variabel 5 (pseudo R-kuadrat McFadden = 0,131), yang saya uji secara formal menggunakan uji rasio log-likelihood , yang menunjukkan ada perbedaan yang signifikan ( p <0,001) antara dua model, dan dengan demikian model 6 variabel lebih disukai untuk dataset yang diberikan.
sumber
Jika ada orang yang masih tertarik untuk menemukan kata-kata McFadden sendiri, inilah tautannya. Dalam catatan kaki, McFadden (1977, p.35) menulis bahwa "nilai .2 hingga .4 untuk [ ] mewakili kecocokan yang sangat baik." Makalah ini tersedia online.ρ2
http://cowles.yale.edu/sites/default/files/files/pub/d04/d0474.pdf
sumber