Apa perbedaan utama antara estimasi kemungkinan maksimum (MLE) vs estimasi kuadrat terkecil (LSE)?
Mengapa kita tidak bisa menggunakan MLE untuk memprediksi nilai dalam regresi linier dan sebaliknya?
Setiap bantuan tentang topik ini akan sangat dihargai.
Jawaban:
Saya ingin memberikan jawaban langsung.
Seperti yang dikomentari @TrynnaDoStat, meminimalkan kesalahan kuadrat setara dengan memaksimalkan kemungkinan dalam kasus ini. Seperti yang dikatakan di Wikipedia ,
mereka dapat dipandang sama dalam kasus Anda,
Biarkan saya sedikit detail. Karena kita tahu bahwa variabel respons ( ) memiliki model distribusi kesalahan normal, fungsi kemungkinannya adalah, Jelas memaksimalkan L sama dengan meminimalkan Itu metode kuadrat terkecil.y Yi=λ1Xi+λ2+ϵi where ϵ∼N(0,σ2)
L(Y1,…,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(−12σ2(∑i=1n(Yi−λ1Xi−λ2)2)) ∑i=1n(Yi−λ1Xi−λ2)2
Seperti yang dijelaskan di atas, kita sebenarnya (lebih tepatnya setara) menggunakan MLE untuk memprediksi nilai . Dan jika variabel respon memiliki distribusi sewenang-wenang daripada distribusi normal, seperti distribusi Bernoulli atau siapa pun dari keluarga eksponensial, kami memetakan prediktor linier ke distribusi variabel respons menggunakan fungsi tautan (sesuai dengan distribusi respons), maka fungsi kemungkinan menjadi produk dari semua hasil (probabilitas antara 0 dan 1) setelah transformasi. Kita dapat memperlakukan fungsi tautan dalam regresi linier sebagai fungsi identitas (karena responsnya sudah menjadi probabilitas).y
sumber
ML adalah seperangkat penduga yang lebih tinggi yang mencakup paling sedikit penyimpangan absolut ( -Norm) dan kuadrat terkecil ( -Norm). Di bawah tudung ML, penaksir berbagi berbagai sifat umum seperti titik istirahat (sayangnya) yang tidak ada. Bahkan Anda dapat menggunakan pendekatan ML sebagai pengganti untuk mengoptimalkan banyak hal termasuk OLS selama Anda tahu apa yang Anda lakukan.L1 L2
Aplikasi profesional tidak hanya cocok dengan data, mereka memeriksa:
Juga ada sejumlah besar tes statistik khusus untuk hipotesis. Ini tidak perlu berlaku untuk semua penaksir ML atau setidaknya harus dinyatakan dengan bukti.
Poin profan lainnya adalah bahwa -Norm sangat mudah diimplementasikan, dapat diperluas ke regularisasi Bayesian atau algoritma lain seperti Levenberg-Marquard.L2
Jangan lupa: Kinerja. Tidak semua kasus kuadrat terkecil seperti Gauss-Markov menghasilkan persamaan normal definitif positif simetris positif . Oleh karena itu saya menggunakan perpustakaan terpisah untuk setiap -Norm. Dimungkinkan untuk melakukan optimasi khusus untuk kasus tertentu ini.Xβ=L+r (XTX)−1 L2
Jangan ragu untuk menanyakan detailnya.
sumber