Bisakah Anda memberikan penjelasan intuitif sederhana tentang metode IRLS untuk menemukan MLE dari GLM?

12

Latar Belakang:

Saya mencoba mengikuti review Princeton tentang estimasi MLE untuk GLM .

Saya memahami dasar-dasar estimasi MLE: likelihood, score, diamati dan diharapkan Fisher informationdan Fisher scoringteknik. Dan saya tahu bagaimana membenarkan regresi linier sederhana dengan estimasi MLE .


Pertanyaan:

Saya bahkan tidak mengerti baris pertama dari metode ini :(

Apa intuisi di balik variabel kerja zi didefinisikan sebagai:

zi=η^i+(yiμ^i)dηidμi

Mengapa mereka digunakan sebagai pengganti yi untuk memperkirakan β ?

Dan apa hubungan mereka dengan response/link functionyang merupakan hubungan antara η dan μ

Jika ada yang punya penjelasan sederhana atau bisa mengarahkan saya ke teks yang lebih mendasar tentang ini saya akan berterima kasih.

ihadanny
sumber
1
Sebagai catatan tambahan, bagi saya saya belajar tentang IRLS dalam konteks estimasi robust (M-) sebelum mendengar tentang keseluruhan kerangka kerja "GLM" (yang saya masih belum sepenuhnya mengerti). Untuk perspektif praktis tentang pendekatan ini, sebagai generalisasi sederhana dari kuadrat terkecil, saya akan merekomendasikan sumber yang pertama kali saya temui: Lampiran B buku Computer Vision (E-) gratis Richard Szeliski (4 halaman pertama, sungguh, meskipun tautan ini ke beberapa contoh yang bagus juga).
GeoMatt22

Jawaban:

15

Beberapa tahun yang lalu saya menulis makalah tentang ini untuk murid-murid saya (dalam bahasa Spanyol), jadi saya dapat mencoba menulis ulang penjelasan itu di sini. Saya akan melihat IRLS (iteratively reweighted least square) melalui serangkaian contoh peningkatan kompleksitas. Sebagai contoh pertama kita membutuhkan konsep keluarga skala lokasi. Biarkan menjadi fungsi kerapatan yang berpusat pada nol dalam arti tertentu. Kita dapat membangun keluarga kepadatan dengan mendefinisikan f ( x ) = f ( x ; μ , σ ) = 1f0 manaσ>0adalah parameter skala danμadalah parameter lokasi. Dalam model kesalahan pengukuran, di mana biasanya istilah kesalahan dimodelkan sebagai distribusi normal, kita dapat menggantikan distribusi normal menggunakan keluarga skala lokasi seperti dibangun di atas. Ketikaf0adalah distribusi normal standar, konstruksi di atas memberikan keluargaN(μ,σ).

f(x)=f(x;μ,σ)=1σf0(xμσ)
σ>0μf0N(μ,σ)

Sekarang kita akan menggunakan IRLS pada beberapa contoh sederhana. Pertama-tama kita akan menemukan estimator ML (kemungkinan maksimum) dalam model dengan kerapatan f ( y ) = 1

Y1,Y2,,Yni.i.d
distribusi Cauchy keluarga lokasi μ (jadi ini adalah keluarga lokasi). Tetapi pertama-tama beberapa notasi. Kuadrat terkecil tertimbang estimator dari μ diberikan oleh μ * = Σ n i = 1 w i y i
f(y)=1π11+(yμ)2,yR,
μμ di manawiadalah beberapa bobot. Kita akan melihat bahwa ML estimator dariμdapat dinyatakan dalam bentuk yang sama, denganwibeberapa fungsi residual εi=yi - μ . Fungsi kemungkinan diberikan oleh L(y;μ)=(1
μ=i=1nwiyii=1nwi.
wiμwi
ϵi=yiμ^.
dan fungsi loglikelihood diberikan oleh l(y)=-nlog(π)- n Σ i=1log(1+(yi-μ)2). Turunannya sehubungan denganμadalah l ( y )
L(y;μ)=(1π)ni=1n11+(yiμ)2
l(y)=nlog(π)i=1nlog(1+(yiμ)2).
μ mana ϵi=yi-μ. Tulisf0(ϵ)=1
l(y)μ=0μlog(1+(yiμ)2)=2(yiμ)1+(yiμ)2(1)=2ϵi1+ϵi2
ϵi=yiμ danf0 (ϵ)=1f0(ϵ)=1π11+ϵ2 , kita mendapatkan f0 (ϵ)f0(ϵ)=1π12ϵ(1+ϵ2)2 Kami menemukan l ( y )
f0(ϵ)f0(ϵ)=12ϵ(1+ϵ2)211+ϵ2=2ϵ1+ϵ2.
mana kami menggunakan definisi wi= f 0 ( ϵ i )
l(y)μ=f0(ϵi)f0(ϵi)=f0(ϵi)f0(ϵi)(1ϵi)(ϵi)=wiϵi
Mengingat bahwa ϵi=yi-μkita memperoleh persamaan wiyi=μwi, yang merupakan persamaan estimasi IRLS. Catat itu
wi=f0(ϵi)f0(ϵi)(1ϵi)=2ϵi1+ϵi2(1ϵi)=21+ϵi2.
ϵi=yiμ
wiyi=μwi,
  1. Bobot selalu positif.wi
  2. Jika residu besar, kami memberikan bobot lebih sedikit untuk pengamatan yang sesuai.

μ^(0)

ϵi(0)=yiμ^(0)
wi(0)=21+ϵi(0).
μ^
μ^(1)=wi(0)yiwi(0).
ϵi(j)=yiμ^(j)
wi(j)=21+ϵi(j).
j+1
μ^(j+1)=wi(j)yiwi(j).
μ^(0),μ^(1),,μ^(j),

f(y)=1σf0(yμσ)Y1,Y2,,Ynϵi=yiμσ

l(y)=n2log(σ2)+log(f0(yiμσ)).
ν=σ2
ϵiμ=1σ
ϵiν=(yiμ)(1ν)=(yiμ)12σ3.
l(y)μ=f0(ϵi)f0(ϵi)ϵiμ=f0(ϵi)f0(ϵi)(1σ)=1σfo(ϵi)f0(ϵi)(1ϵi)(ϵi)=1σwiϵi
σ2
l(y)ν=n21ν+f0(ϵi)f0(ϵi)ϵiν=n21ν+f0(ϵi)f0(ϵi)((yiμ)2σ3)=n21ν121σ2f0(ϵi)f0(ϵi)ϵi=n21ν121νf0(ϵi)f0(ϵi)(1ϵi)(ϵi)ϵi=n21ν+121νwiϵi2=!0.
σ2^=1nwi(yiμ^)2.

Berikut ini kami memberikan ujian numerik menggunakan R, untuk model eksponensial ganda (dengan skala diketahui) dan dengan data y <- c(-5,-1,0,1,5). Untuk data ini nilai sebenarnya dari penaksir ML adalah 0. Nilai awal akan menjadi mu <- 0.5. Salah satu pass dari algoritma adalah

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

dengan fungsi ini Anda dapat bereksperimen dengan melakukan iterasi "dengan tangan" Kemudian algoritma iteratif dapat dilakukan oleh

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

tkσ

wi=k+1k+ϵi2.
w(ϵ)=1eϵ1+eϵ1ϵ.

Untuk saat ini saya akan meninggalkannya di sini, saya akan melanjutkan posting ini.

kjetil b halvorsen
sumber
uui
1
Saya akan menambahkan lebih dari ini, hanya kehabisan waktu sekarang! Gagasannya tetap sama, tetapi perinciannya semakin terlibat.
kjetil b halvorsen
2
akan sampai pada itu!
kjetil b halvorsen
1
tk
2
apakah Anda keberatan menulis posting blog di tempat yang melanjutkan penjelasan ini? benar-benar berguna bagi saya dan saya yakin akan bermanfaat bagi orang lain ...
ihadanny