Metode kemungkinan maksimum vs. metode kuadrat terkecil

42

Apa perbedaan utama antara estimasi kemungkinan maksimum (MLE) vs estimasi kuadrat terkecil (LSE)?

Mengapa kita tidak bisa menggunakan MLE untuk memprediksi nilai dalam regresi linier dan sebaliknya?y

Setiap bantuan tentang topik ini akan sangat dihargai.

Evros
sumber
8
Anda dapat menggunakan MLE dalam regresi linier jika Anda mau. Ini bahkan dapat masuk akal jika distribusi kesalahan tidak normal dan tujuan Anda adalah untuk mendapatkan perkiraan "yang paling mungkin" daripada yang meminimalkan jumlah kuadrat.
Richard Hardy
16
Di bawah asumsi kesalahan normal, seperti yang biasanya diasumsikan dalam regresi linier, MLE dan LSE adalah sama!
TrynnaDoStat
1
Cari situs kami untuk teorema Gauss-Markov .
whuber
terima kasih atas semua balasannya. Sekarang ini masuk akal. Saat mencari topik ini di internet, saya menemukan artikel ini. Mungkin ini juga membantu: radfordneal.wordpress.com/2008/08/09/...
evros
1
Sebuah jawaban juga diberikan di stats.stackexchange.com/questions/12562/… .
whuber

Jawaban:

19

Saya ingin memberikan jawaban langsung.

Apa perbedaan utama antara estimasi kemungkinan maksimum (MLE) vs estimasi kuadrat terkecil (LSE)?

Seperti yang dikomentari @TrynnaDoStat, meminimalkan kesalahan kuadrat setara dengan memaksimalkan kemungkinan dalam kasus ini. Seperti yang dikatakan di Wikipedia ,

Dalam model linier, jika kesalahan milik distribusi normal, penduga kuadrat terkecil juga merupakan penduga kemungkinan maksimum.

mereka dapat dipandang sama dalam kasus Anda,

Biarkan saya sedikit detail. Karena kita tahu bahwa variabel respons ( ) memiliki model distribusi kesalahan normal, fungsi kemungkinannya adalah, Jelas memaksimalkan L sama dengan meminimalkan Itu metode kuadrat terkecil.y

Yi=λ1Xi+λ2+ϵi where ϵN(0,σ2)

masukkan deskripsi gambar di sini
L(Y1,,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(12σ2(i=1n(Yiλ1Xiλ2)2))
i=1n(Yiλ1Xiλ2)2

Mengapa kita tidak bisa menggunakan MLE untuk memprediksi nilai dalam regresi linier dan sebaliknya? y

Seperti yang dijelaskan di atas, kita sebenarnya (lebih tepatnya setara) menggunakan MLE untuk memprediksi nilai . Dan jika variabel respon memiliki distribusi sewenang-wenang daripada distribusi normal, seperti distribusi Bernoulli atau siapa pun dari keluarga eksponensial, kami memetakan prediktor linier ke distribusi variabel respons menggunakan fungsi tautan (sesuai dengan distribusi respons), maka fungsi kemungkinan menjadi produk dari semua hasil (probabilitas antara 0 dan 1) setelah transformasi. Kita dapat memperlakukan fungsi tautan dalam regresi linier sebagai fungsi identitas (karena responsnya sudah menjadi probabilitas).y

Lerner Zhang
sumber
3
Anda mungkin ingin mendefinisikan "kasus ini" sedikit lebih jelas karena secara umum, kemungkinan maksimum dan kuadrat terkecil bukanlah hal yang sama.
Matthew Gunn
2
@ MatthewGunn Ya, saya menggunakan "setara dengan" selain "sama".
Lerner Zhang
Akan lebih bagus jika Anda memberi kami contoh di mana model linier mengikuti distribusi kesalahan tidak normal, dan bagaimana Anda menggunakan MLE dalam kasus seperti itu untuk memperkirakan koefisien terbaik. Jika tidak memungkinkan, setidaknya Anda dapat mengarahkan kami ke sumber yang benar, yang menunjukkan ini menggunakan model linier seperti Poisson regression
VM_AI
12

ML adalah seperangkat penduga yang lebih tinggi yang mencakup paling sedikit penyimpangan absolut ( -Norm) dan kuadrat terkecil ( -Norm). Di bawah tudung ML, penaksir berbagi berbagai sifat umum seperti titik istirahat (sayangnya) yang tidak ada. Bahkan Anda dapat menggunakan pendekatan ML sebagai pengganti untuk mengoptimalkan banyak hal termasuk OLS selama Anda tahu apa yang Anda lakukan.L1L2

L2 -Norm kembali ke CF Gauss dan berusia sekitar 200 tahun sedangkan pendekatan ML modern kembali ke (IMHO) Huber 1964. Banyak ilmuwan terbiasa dengan -Norm dan persamaan mereka. Teorinya dipahami dengan baik dan ada banyak makalah yang diterbitkan yang dapat dilihat sebagai ekstensi yang berguna seperti:L2

  • pengintai data
  • parameter stokastik
  • kendala lemah

Aplikasi profesional tidak hanya cocok dengan data, mereka memeriksa:

  • jika parameternya signifikan
  • jika dataset Anda memiliki outlier
  • outlier mana yang dapat ditoleransi karena tidak melumpuhkan kinerja
  • pengukuran mana yang harus dihapus karena tidak berkontribusi pada tingkat kebebasan

Juga ada sejumlah besar tes statistik khusus untuk hipotesis. Ini tidak perlu berlaku untuk semua penaksir ML atau setidaknya harus dinyatakan dengan bukti.

Poin profan lainnya adalah bahwa -Norm sangat mudah diimplementasikan, dapat diperluas ke regularisasi Bayesian atau algoritma lain seperti Levenberg-Marquard.L2

Jangan lupa: Kinerja. Tidak semua kasus kuadrat terkecil seperti Gauss-Markov menghasilkan persamaan normal definitif positif simetris positif . Oleh karena itu saya menggunakan perpustakaan terpisah untuk setiap -Norm. Dimungkinkan untuk melakukan optimasi khusus untuk kasus tertentu ini.Xβ=L+r(XTX)1L2

Jangan ragu untuk menanyakan detailnya.

nali
sumber