Apa arti residu dalam regresi logistik?

Dalam menjawab pertanyaan ini John Christie menyarankan agar kecocokan model regresi logistik harus dinilai dengan mengevaluasi residu. Saya akrab dengan cara menafsirkan residu dalam OLS, mereka berada dalam skala yang sama dengan DV dan sangat jelas perbedaan antara y dan y yang diprediksi oleh model. Namun untuk regresi logistik, di masa lalu saya biasanya hanya memeriksa perkiraan kecocokan model, misalnya AIC, karena saya tidak yakin apa artinya residu untuk regresi logistik. Setelah melihat ke dalam file bantuan R sedikit saya melihat bahwa di R ada lima jenis residu glm yang tersedia c("deviance", "pearson", "working","response", "partial"),. File bantuan merujuk ke:

Davison, AC dan Snell, EJ (1991) Residual dan diagnostik. Dalam: Teori dan Pemodelan Statistik. Untuk Kehormatan Sir David Cox, FRS , eds. Hinkley, DV, Reid, N. dan Snell, EJ, Chapman & Hall.

Saya tidak punya salinannya. Apakah ada cara singkat untuk menggambarkan cara menafsirkan masing-masing jenis ini? Dalam konteks logistik akankah jumlah residu kuadrat memberikan ukuran yang sesuai dari model yang cocok atau lebih baik dengan Kriteria Informasi?

r logistic generalized-linear-model residuals aic russellpierce
sumber

Ada elemen-elemen pada pertanyaan ini yang tetap tidak terjawab, misalnya sifat "pearson", "working", "response", dan residu "parsial", tetapi untuk saat ini saya akan menerima jawaban Thylacoleo.

russellpierce

Saya menemukan binnedplotfungsi di lengan paket R memberikan plot residu yang sangat membantu. Ini dijelaskan dengan baik pada hal.97-101 dari Gelman dan Hill 2007 .

conjugateprior

Salah satu cara yang sangat mudah untuk memeriksa kecocokan model adalah plot dari proporsi yang diamati vs yang diprediksi. Tapi ini tidak akan berhasil jika Anda memiliki regresi bernoulli (yaitu semua pengamatan Anda memiliki kombinasi unik dari variabel independen, sehingga ), karena Anda hanya akan melihat garis nol dan satu.

n_{i} = 1

$n_i=1$

probabilityislogic

Ya - sayangnya saya biasanya menggunakan Bernoulli DV.

russellpierce

Lihat juga Memahami glm $ residual dan resid (glm) di Stack Overflow .

gung - Pasang kembali Monica

Jawaban:

Residu termudah untuk dipahami adalah residu penyimpangan seperti ketika kuadrat jumlah ini menjadi -2 kali log-kemungkinan. Dalam istilah yang paling sederhana, regresi logistik dapat dipahami dalam hal pemasangan fungsi untuk diketahui sedemikian rupa untuk meminimalkan penyimpangan total, yang merupakan penjumlahan residu penyimpangan kuadrat dari semua titik data. $p = \text{logit}^{-1}(X\beta)$ $X$

Penyimpangan (kuadrat) dari setiap titik data sama dengan (-2 kali) logaritma perbedaan antara probabilitas yang diprediksinya dan komplemen dari nilai aktualnya (1 untuk kontrol; a 0 untuk kasus) dalam istilah absolut. Kesesuaian titik yang sempurna (yang tidak pernah terjadi) memberikan penyimpangan nol karena log (1) adalah nol. Titik yang tidak pas memiliki penyimpangan residu yang besar karena -2 kali log dari nilai yang sangat kecil adalah angka yang besar. $\text{logit}^{-1}(X\beta)$

Melakukan regresi logistik mirip dengan menemukan nilai beta sedemikian rupa sehingga jumlah residu penyimpangan kuadrat diminimalkan.

Ini dapat diilustrasikan dengan plot, tetapi saya tidak tahu cara mengunggahnya.

Thylacoleo
sumber

Reg gambar: Gunakan salah satu situs hosting gambar gratis (cari google), unggah plot ke situs itu dan tautkan di sini.

Saya telah memperbaiki kesalahan dalam jawaban asli saya. Saya pertama kali menulis p = logit (X beta). Faktanya, probabilitas yang diprediksi adalah invit logit dari kombinasi linear, p = inv-logit (X beta). Dalam R ini dihitung sebagai p <-plogit (X beta), yaitu p = exp (X beta) / (1 + exp (X * beta)).

Thylacoleo

Dari paket R mana plogit? Tidak jelas apakah Anda mendefinisikannya di sini atau mendapatkannya dari tempat lain.

Amyunimus

@Amyunimus plogitada di R (statistik), tidak perlu paket (setidaknya tidak lagi)

russellpierce

Pada residu Pearsons,

Residu Pearson adalah perbedaan antara probabilitas yang diamati dan yang diperkirakan dibagi dengan standar deviasi binomial dari probabilitas yang diperkirakan. Oleh karena itu standarisasi residunya. Untuk sampel besar residu standar harus memiliki distribusi normal.

Dari Menard, Scott (2002). Analisis regresi logistik terapan, Edisi ke-2. Thousand Oaks, CA: Sage Publications. Seri: Aplikasi Kuantitatif dalam Ilmu Sosial, No. 106. Ed pertama, 1995. Lihat Bab 4.4

tosonb1
sumber

ini tidak sepenuhnya benar tentang sampel besar. Ini lebih tepatnya bahwa Anda memerlukan jumlah sel binomial besar , atau apa hal yang sama, sejumlah besar replikasi kovariat. Residu pearson jauh dari terdistribusi normal untuk pengamatan di mana .

n_{i}

$n_i$

n_{i} < 5

$n_i<5$

probabilityislogic

Residual yang bekerja adalah residu dalam iterasi akhir dari setiap metode kuadrat terkecil tertimbang . Saya rasa itu berarti residu ketika kita berpikir itu adalah iterasi terakhir dari model yang kita jalankan. Itu bisa memunculkan diskusi bahwa model running adalah latihan yang berulang.

ayush biyani
sumber