Kesetaraan antara kuadrat terkecil dan MLE dalam model Gaussian

26

Saya baru belajar Mesin, dan saya sedang mencoba mempelajarinya sendiri. Baru-baru ini saya membaca beberapa catatan kuliah dan memiliki pertanyaan mendasar.

Slide 13 mengatakan bahwa "Estimasi Least Square sama dengan Estimasi Kemungkinan Maksimum dalam model Gaussian". Sepertinya itu adalah sesuatu yang sederhana, tetapi saya tidak dapat melihat ini. Bisakah seseorang tolong jelaskan apa yang terjadi di sini? Saya tertarik melihat Matematika.

Saya nanti akan mencoba melihat sudut pandang probabilistik dari regresi Ridge dan Lasso juga, jadi jika ada saran yang akan membantu saya, itu akan sangat dihargai juga.

Andy
sumber
4
Fungsi objektif di bagian bawah hal. 13 hanyalah kelipatan konstan ( ) dari fungsi objektif di bagian bawah hal. 10. MLE meminimalkan yang pertama sedangkan kuadrat terkecil meminimalkan yang terakhir, QED. n
whuber
@whuber: Terima kasih atas jawaban Anda. Nah yang ingin saya ketahui adalah bagaimana MLE melakukan minimalisasi.
Andy
Apakah maksud Anda mekanika atau secara konseptual?
whuber
@whuber: Keduanya! Jika saya bisa melihat Matematika itu, itu akan membantu juga.
Andy
1
Tautan rusak; kurangnya referensi lengkap dan lebih banyak konteks untuk kutipan membuatnya sulit untuk hanya menghapus referensi atau mencari sumber alternatif untuk itu. Apakah slide 13 tautan ini cukup? --- cs.cmu.edu/~epxing/Class/10701-10s/recitation/recitation3.pdf
Glen_b -Reinstate Monica

Jawaban:

29

Dalam model

Y=Xβ+ϵ

di mana , kemungkinan loglikatif untuk sampel subjek adalah (hingga konstanta aditif)Y | X nϵN(0,σ2)Y|Xn

n2log(σ2)12σ2i=1n(yixiβ)2

dipandang sebagai fungsi hanya , maximizer adalah persis apa yang diminimalkanβ

saya=1n(ysaya-xsayaβ)2

apakah ini membuat kesetaraan jelas?

Makro
sumber
Inilah tepatnya yang ada dalam slide yang disebut dalam OP
whuber
3
Ya saya melihat itu tetapi mereka tidak benar-benar menulis log Gaussian-kemungkinan pada halaman 13 yang, setelah melakukan itu, membuat jelas bahwa argmaxnya sama dengan argumen kriteria OLS, jadi saya pikir ini adalah tambahan yang berharga.
Makro
poin bagus: slide agak samar dengan detailnya.
whuber
7
Anda telah belajar bahwa, jika Anda tahu kesalahan biasanya terdistribusi di sekitar garis regresi maka estimator kuadrat terkecil adalah "optimal" dalam arti tertentu, selain dengan sewenang-wenang menyatakan bahwa "kuadrat terkecil" adalah yang terbaik. Mengenai regresi ridge, solusi ini setara (jika Anda adalah bayesian) untuk estimator kuadrat terkecil ketika prior Gaussian ditempatkan pada . Dalam dunia frequentist, itu setara dengan kuadrat terkecil yang dihukum. Koefisien regresi logistik bukanlah solusi untuk masalah kuadrat terkecil, sehingga tidak akan analog. L 2βL.2
Makro
1
Konstanta tambahan adalahn/2 log(2 *pi)
SmallChess