Judul mengatakan itu semua. Saya mengerti bahwa Least-Squares dan Maximum-Likelihood akan memberikan hasil yang sama untuk koefisien regresi jika kesalahan model terdistribusi secara normal. Tetapi, apa yang terjadi jika kesalahan tidak terdistribusi secara normal? Mengapa kedua metode ini tidak lagi setara?
11
Jawaban:
Jawaban singkat
Densitas probabilitas variabel multistarian Gaussian terdistribusi , dengan rata-rata terkait dengan kuadrat euclidean jarak antara mean dan variabel ( ), atau dengan kata lain jumlah kuadrat.x=(x1,x2,...,xn) μ=(μ1,μ2,...,μn) |μ−x|22
Jawaban panjang
Jika Anda mengalikan banyak distribusi Gaussian untuk kesalahan Anda, di mana Anda mengasumsikan penyimpangan yang sama, maka Anda mendapatkan jumlah kuadrat.n
atau dalam bentuk logaritmik yang nyaman:
Jadi mengoptimalkan untuk meminimalkan jumlah kuadrat sama dengan memaksimalkan kemungkinan (log) (mis. Produk dari beberapa distribusi Gaussian, atau distribusi Gaussian multivarian).μ
Ini adalah kotak bersarang dari perbedaan di dalam struktur eksponensial, , yang tidak dimiliki distribusi lain.(μ−x) exp[(xi−μ)2]
Bandingkan misalnya dengan kasus untuk distribusi Poisson
yang memiliki maksimum ketika hal-hal berikut diminimalkan:
yang merupakan binatang yang berbeda.
Selain itu (sejarah)
Sejarah distribusi normal (mengabaikan deMoivre sampai ke distribusi ini sebagai perkiraan untuk distribusi binomial) sebenarnya sebagai penemuan distribusi yang membuat MLE sesuai dengan metode kuadrat terkecil (daripada metode kuadrat terkecil yang menjadi metode yang dapat mengekspresikan MLE dari distribusi normal, pertama datang metode kuadrat terkecil, kedua datang distribusi Gaussian)
Perhatikan bahwa Gauss, menghubungkan 'metode kemungkinan maksimum' dengan 'metode kuadrat terkecil', muncul dengan 'distribusi Gaussian', , sebagai satu-satunya distribusi kesalahan yang mengarahkan kita ke buat hubungan ini antara kedua metode.e−x2
Dari terjemahan Charles Henry Davis (Teori gerakan benda-benda langit yang bergerak di sekitar matahari di bagian kerucut. Terjemahan karya Gauss "Theoria motus," dengan lampiran) ...
Gauss mendefinisikan:
Dan berlanjut ( dalam bagian 177 hlm. 258 ):
berakhir (setelah normalisasi dan menyadari ) padak<0
Ditulis oleh StackExchangeStrike
sumber
Karena MLE berasal dari asumsi residu yang terdistribusi normal.
Catat itu
Tidak memiliki arti probabilistik : cukup temukan yang meminimalkan fungsi kerugian kuadrat. Semuanya deterministik, dan tidak ada komponen acak di sana.β
Di mana konsep probabilitas dan kemungkinan datang, adalah kita asumsikan
Di mana kami mempertimbangkan sebagai variabel acak, dan didistribusikan secara normal.ϵy ϵ
sumber
Kuadrat terkecil dan kesesuaian kemungkinan (gaussian) maksimum selalu sama. Artinya, mereka diminimalkan oleh set koefisien yang sama.
Mengubah asumsi kesalahan mengubah fungsi kemungkinan Anda (memaksimalkan kemungkinan model sama dengan memaksimalkan kemungkinan istilah kesalahan), dan karenanya fungsi tidak akan lagi diminimalkan oleh set koefisien yang sama.
Jadi dalam prakteknya keduanya sama, tetapi dalam teori, ketika Anda memaksimalkan kemungkinan yang berbeda, Anda akan mendapatkan jawaban yang berbeda dari Least-square
sumber
Contoh konkret: Misalkan kita mengambil fungsi kesalahan sederhana p (1) = .9, p (-9) = .10. Jika kita mengambil dua poin, maka LS hanya akan mengambil garis melalui mereka. ML, di sisi lain, akan mengasumsikan bahwa kedua poin adalah satu unit terlalu tinggi, dan dengan demikian akan mengambil garis melalui poin yang bergeser ke bawah pada unit.
sumber