Hubungan antara MLE dan kuadrat terkecil dalam kasus regresi linier

9

Hastie dan Tibshirani menyebutkan dalam bagian 4.3.2 dari buku mereka bahwa dalam pengaturan regresi linier, pendekatan kuadrat terkecil sebenarnya merupakan kasus khusus dari kemungkinan maksimum. Bagaimana kita dapat membuktikan hasil ini?

PS: Tidak ada detail matematis.

Pradnyesh Joshi
sumber
2
Ini bukan kasus khusus: mereka hanya identik ketika distribusi kesalahan normal.
Zhanxiong

Jawaban:

13

Model regresi linier

, di mana ϵ N ( 0 , I σ 2 )Y=Xβ+ϵϵN(0,Iσ2)

, X R n × p dan β R pYRnXRn×pβRp

Perhatikan bahwa kesalahan model kami (residual) adalah . Tujuan kami adalah menemukan vektor β s yang meminimalkan norma L 2 yang dikuadratkan dari kesalahan ini.ϵ=YXββL.2

Kotak Terkecil

Data yang diberikan mana setiap x i adalah dimensi p , kami berusaha menemukan:(x1,y1),...,(xn,yn)xsayahal

β^L.S=Argminβ||ϵ||2=Argminβ||Y-Xβ||2=Argminβsaya=1n(ysaya-xsayaβ)2

Kemungkinan Maksimum

Menggunakan model di atas, kita dapat mengatur kemungkinan data diberikan parameter sebagai:β

L.(Y|X,β)=saya=1nf(ysaya|xsaya,β)

di mana adalah pdf dari distribusi normal dengan mean 0 dan varians σ 2 . Memasukkannya ke:f(ysaya|xsaya,β)σ2

L.(Y|X,β)=saya=1n12πσ2e-(ysaya-xsayaβ)22σ2

Sekarang umumnya ketika berhadapan dengan kemungkinan secara matematis lebih mudah untuk mengambil log sebelum melanjutkan (produk menjadi jumlah, eksponensial hilang), jadi mari kita lakukan itu.

catatanL.(Y|X,β)=saya=1ncatatan(12πσ2)-(ysaya-xsayaβ)22σ2

Karena kami menginginkan estimasi kemungkinan maksimum, kami ingin menemukan maksimum persamaan di atas, berkenaan dengan . Istilah pertama tidak memengaruhi estimasi kami tentang β , jadi kami dapat mengabaikannya:ββ

β^M.L.E=argmaxβsaya=1n-(ysaya-xsayaβ)22σ2

Perhatikan bahwa penyebutnya adalah konstan sehubungan dengan . Akhirnya, perhatikan bahwa ada tanda negatif di depan jumlah tersebut. Jadi menemukan maksimum angka negatif adalah seperti menemukan minimumnya tanpa negatif. Dengan kata lain:β

β^M.L.E=Argminβsaya=1n(ysaya-xsayaβ)2=β^L.S

Ingat bahwa agar ini berfungsi, kami harus membuat asumsi model tertentu (normalitas istilah kesalahan, 0 mean, varians konstan). Ini membuat kuadrat terkecil setara dengan MLE dalam kondisi tertentu. Lihat di sini dan di sini untuk diskusi lebih lanjut.

Untuk kelengkapan, perhatikan bahwa solusinya dapat ditulis sebagai:

β=(XTX)-1XTy
ilanman
sumber