Apa beberapa alasan kuadrat berulang ulang berulang tidak akan bertemu ketika digunakan untuk regresi logistik?

8

Saya telah menggunakan fungsi glm.fit di R untuk menyesuaikan parameter dengan model regresi logistik. Secara default, glm.fit menggunakan kuadrat terkecil yang diulang-ulang secara berulang agar sesuai dengan parameter. Apa alasan mengapa algoritma ini gagal untuk bertemu, ketika digunakan untuk regresi logistik?

Jessica
sumber
2
Saya tidak tahu bagaimana menilai "yang paling umum", karena apa yang umum bagi orang yang bekerja di satu area mungkin tidak umum untuk yang lain. [Salah satu alasan (dari banyak kemungkinan) adalah pemisahan lengkap - di mana sepanjang beberapa kombinasi linear dari prediktor, semua 0 berada di atas atau di bawah semua 1. Anda kadang-kadang dapat melihat kapan hal itu terjadi karena setidaknya satu parameter akan cenderung mengarah ke infinity.]
Glen_b -Reinstate Monica
@Glen_b: Terima kasih atas komentar Anda, saya akan mengubahnya menjadi "beberapa alasan."
Jessica

Jawaban:

14

Dalam hal kedua kelas dapat dipisahkan, iteratif reweighted least squares (IRLS) akan pecah. Dalam skenario seperti itu, setiap hyperplane yang memisahkan dua kelas adalah solusi dan ada banyak sekali dari mereka. IRLS dimaksudkan untuk menemukan solusi kemungkinan maksimum. Kemungkinan maksimum tidak memiliki mekanisme untuk mendukung solusi mana pun di atas yang lain (mis. Tidak ada konsep margin maksimum). Bergantung pada inisialisasi, IRLS harus menuju ke salah satu solusi ini dan akan rusak karena masalah numerik (tidak tahu detail IRLS; tebakan yang berpendidikan).

Masalah lain muncul dalam kasus keterpisahan linear dari data pelatihan. Salah satu solusi hyperplane sesuai dengan fungsi heaviside. Oleh karena itu, semua probabilitas adalah 0 atau 1. Solusi regresi linier akan menjadi pengklasifikasi yang keras daripada pengklasifikasi probabilistik.

Untuk memperjelas penggunaan simbol matematika, fungsi heaviside adalah , batas fungsi sigmoid, di mana adalah fungsi sigmoid dan menentukan solusi hyperplane. Jadi secara teoritis IRLS tidak berhenti dan berjalan menuju dengan peningkatan besarnya tetapi akan pecah dalam praktik karena masalah numerik.lim|w|σ(wTx+b)σ(w,b)w

Seeda
sumber
7

Di atas pemisahan linier (di mana MLE berada pada batas ruang parameter), prosedur Skor Fisher di R tidak sepenuhnya stabil secara numerik. Dibutuhkan langkah-langkah dengan ukuran tetap, yang dalam kasus patologis tertentu dapat menyebabkan non-konvergensi (ketika MLE sebenarnya adalah titik interior).

Sebagai contoh,

y <- c(1,1,1,0)
x <- rep(1,4)
fit1 <- glm.fit(x,y, family=binomial(link="logit"),start=-1.81)

menghasilkan koefisien daripada logit yang diharapkan .2×1015(3/4)1.0986

Paket CRAN glm2 menyediakan pengganti drop-in untuk glm.fityang menyesuaikan ukuran langkah untuk memastikan konvergensi monoton.

Andrew M
sumber