Apakah meminimalkan kesalahan kuadrat setara dengan meminimalkan kesalahan absolut? Mengapa kesalahan kuadrat lebih populer daripada yang terakhir?

39

Ketika kami melakukan regresi linier agar sesuai dengan banyak titik data , pendekatan klasik meminimalkan kesalahan kuadrat. Saya sudah lama bingung dengan pertanyaan yang akan meminimalkan kesalahan kuadrat menghasilkan hasil yang sama dengan meminimalkan kesalahan absolut ? Jika tidak, mengapa meminimalkan kesalahan kuadrat lebih baik? Adakah alasan lain selain "fungsi objektif dapat dibedakan"?( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n )y=Sebuahx+b(x1,y1),(x2,y2),...,(xn,yn)

Kesalahan kuadrat juga banyak digunakan untuk mengevaluasi kinerja model, tetapi kesalahan absolut kurang populer. Mengapa kesalahan kuadrat lebih umum digunakan daripada kesalahan absolut? Jika mengambil turunan tidak terlibat, menghitung kesalahan absolut semudah menghitung kesalahan kuadrat, lalu mengapa kesalahan kuadrat begitu lazim ? Adakah keuntungan unik yang bisa menjelaskan prevalensinya?

Terima kasih.

Tony
sumber
Selalu ada beberapa masalah optimasi di belakang dan Anda ingin dapat menghitung gradien untuk menemukan minimum / maksimum.
Vladislavs Dovgalecs
11
x2<|x|untuk x(-1,1) dan x2>|x|jika |x|>1 . Dengan demikian, kesalahan kuadrat menghukum kesalahan besar lebih dari kesalahan absolut dan lebih memaafkan kesalahan kecil daripada kesalahan absolut. Ini sesuai dengan apa yang banyak orang pikirkan sebagai cara yang tepat untuk melakukan sesuatu.
Dilip Sarwate

Jawaban:

47

Meminimalkan kesalahan kuadrat (MSE) jelas tidak sama dengan meminimalkan penyimpangan absolut (MAD) kesalahan. MSE memberikan respons rata - rata dikondisikan pada , sedangkan MAD memberikan respons median dikondisikan pada .xyxxyx

Secara historis, Laplace awalnya dianggap sebagai kesalahan maksimum yang diamati sebagai ukuran dari kebenaran suatu model. Dia segera pindah ke mempertimbangkan MAD sebagai gantinya. Karena ketidakmampuannya dalam menyelesaikan kedua situasi, ia segera mempertimbangkan diferensial MSE. Dirinya sendiri dan Gauss (tampaknya bersamaan) memperoleh persamaan normal, solusi bentuk-tertutup untuk masalah ini. Saat ini, menyelesaikan MAD relatif mudah dengan menggunakan pemrograman linier. Seperti diketahui, pemrograman linier tidak memiliki solusi bentuk tertutup.

Dari perspektif optimasi, keduanya sesuai dengan fungsi cembung. Namun, MSE dapat dibedakan, dengan demikian, memungkinkan untuk metode berbasis gradien, jauh lebih efisien daripada yang tidak terdiferensiasi. MAD tidak dapat dibedakan pada .x=0

Alasan teoritis lebih lanjut adalah bahwa, dalam pengaturan bayesian, ketika mengasumsikan prior seragam dari parameter model, MSE menghasilkan kesalahan terdistribusi normal, yang telah diambil sebagai bukti ketepatan metode. Para ahli teori menyukai distribusi normal karena mereka percaya itu adalah fakta empiris, sedangkan eksperimen menyukainya karena mereka percaya itu hasil teoretis.

Alasan terakhir mengapa MSE mungkin memiliki penerimaan luas yang dimiliki MSE adalah bahwa ia didasarkan pada jarak euclidean (sebenarnya itu adalah solusi dari masalah proyeksi pada ruang banach euclidean) yang sangat intuitif mengingat kenyataan geometris kita.

Asterion
sumber
1
(+1) untuk referensi Laplace!
Xi'an
2
"Para ahli teori menyukai distribusi normal karena mereka percaya itu adalah fakta empiris, sementara para eksperimental menyukainya karena mereka percaya itu hasil teoretis." -- Aku menyukainya. Tetapi bukankah ada juga aplikasi fisika langsung untuk distribusi Gaussian? Dan ada juga hal-hal tentang distribusi entropi maksimum
shadowtalker
8
@ssdecontrol Saya pikir epigram ini karena Henri Poincaré lebih dari seratus tahun yang lalu. Tout le monde y croit cependant, saya disait un jour M. Lippmann, mobil les expérimentateurs s'imaginent que c'est un théorème de mathématiques, dan les mathématiciens que c'est un fait expérimental. "Semua orang yakin akan hal ini [bahwa kesalahan terdistribusi secara normal], Mr. Lippman memberi tahu saya suatu hari, karena para eksperimentalis percaya bahwa ini adalah teorema matematika, dan ahli matematika bahwa itu adalah fakta yang ditentukan secara eksperimental." dari Calcul des probabilités (2nd ed., 1912), hlm. 171
Dilip Sarwate
1
Ini jawaban matematisnya. Jika kita memiliki matriks data variabel independen X dan matriks kolom Y, maka jika ada matriks b dengan properti Xb = Y, kita memiliki soln. Biasanya kita tidak bisa dan kita ingin b yang 'paling dekat' dengan solusi yang tepat. Sebagai matematika ini 'mudah' untuk dipecahkan. Ini adalah proyeksi Y ke ruang kolom X. Pengertian proyeksi dan dll tegak lurus, tergantung pada metrik. Metrik L2 Euclidean biasa adalah yang biasa kita gunakan dan memberikan kuadrat terkecil. Properti meminimalkan mse adalah pernyataan kembali dari fakta bahwa kami memiliki proyeksi.
aginensky
1
Saya pikir perbedaan pendapat yang diprioritaskan adalah antara Gauss dan Legendre, dengan Legendre mendahului Gauss dalam penerbitan, tetapi Gauss mendahului Legendre dalam korespondensi informal. Saya juga (samar-samar) sadar bahwa bukti Laplace dianggap lebih unggul. Adakah referensi tentang ini?
PatrickT
31

Sebagai penjelasan alternatif, pertimbangkan intuisi berikut:

Saat meminimalkan kesalahan, kita harus memutuskan bagaimana cara menghukum kesalahan ini. Memang, pendekatan yang paling mudah untuk menghukum kesalahan adalah dengan menggunakan linearly proportionalfungsi penalti. Dengan fungsi seperti itu, setiap penyimpangan dari rata-rata diberi kesalahan yang sesuai secara proporsional. Oleh karena itu, dua kali jauh dari rata-rata akan menghasilkan dua kali penalti.

Pendekatan yang lebih umum adalah untuk mempertimbangkan squared proportionalhubungan antara penyimpangan dari rata-rata dan hukuman yang sesuai. Ini akan memastikan bahwa semakin jauh Anda dari rata-rata, semakin Anda akan dihukum secara proporsional . Dengan menggunakan fungsi penalti ini, outlier (jauh dari rata-rata) secara proporsional dianggap lebih informatif daripada pengamatan di dekat rata-rata.

Untuk memberikan visualisasi tentang hal ini, Anda dapat memplot fungsi penalti:

Perbandingan fungsi penalti MAD dan MSE

Sekarang terutama ketika mempertimbangkan estimasi regresi (misalnya OLS), fungsi penalti yang berbeda akan menghasilkan hasil yang berbeda. Dengan menggunakan linearly proportionalfungsi penalti, regresi akan menetapkan bobot yang lebih kecil untuk pencilan daripada saat menggunakan squared proportionalfungsi penalti. Median Absolute Deviation (MAD) dikenal sebagai penduga yang lebih kuat . Secara umum, oleh karena itu kasus bahwa estimator yang kuat cocok dengan sebagian besar poin data dengan baik tetapi 'mengabaikan' outlier. Sebagai perbandingan, kuadrat yang paling cocok ditarik lebih ke arah outlier. Berikut ini visualisasi untuk perbandingan:

Perbandingan OLS vs penduga yang kuat

Sekarang meskipun OLS cukup standar, fungsi penalti yang berbeda pasti digunakan juga. Sebagai contoh, Anda dapat melihat fungsi robustfit Matlab yang memungkinkan Anda untuk memilih fungsi penalti yang berbeda (juga disebut 'bobot') untuk regresi Anda. Fungsi penalti termasuk andrews, bisquare, cauchy, fair, huber, logistik, ols, talwar dan welsch. Ekspresi yang sesuai dapat ditemukan di situs web juga.

Saya harap ini membantu Anda mendapatkan sedikit intuisi untuk fungsi penalti :)

Memperbarui

Jika Anda memiliki Matlab, saya dapat merekomendasikan bermain dengan Matlab's robustdemo , yang dibangun khusus untuk perbandingan kuadrat terkecil biasa dengan regresi kuat:

robustdemo

Demo ini memungkinkan Anda untuk menarik poin individual dan segera melihat dampaknya pada kuadrat terkecil biasa dan regresi kuat (yang sempurna untuk tujuan pengajaran!).

Jean-Paul
sumber
3

Seperti jawaban lain telah menjelaskan, meminimalkan kesalahan kuadrat tidak sama dengan meminimalkan kesalahan absolut.

Alasan meminimalkan kesalahan kuadrat lebih disukai adalah karena mencegah kesalahan besar lebih baik.

Katakanlah departemen penggajian karyawan Anda secara tidak sengaja membayar masing-masing dari total sepuluh karyawan $ 50 kurang dari yang dibutuhkan. Itu kesalahan absolut $ 500. Ini juga kesalahan absolut $ 500 jika departemen hanya membayar satu karyawan lebih sedikit $ 500. Tapi dari segi kesalahan kuadrat, itu 25000 versus 250000.

Tidak selalu lebih baik menggunakan kesalahan kuadrat. Jika Anda memiliki kumpulan data dengan outlier ekstrem karena kesalahan akuisisi data, meminimalkan kesalahan kuadrat akan menarik kecocokan terhadap outlier ekstrem lebih dari meminimalkan kesalahan absolut. Yang sedang berkata, itu-biasanya- lebih baik menggunakan kesalahan kuadrat.

Atsby
sumber
4
Alasan meminimalkan kesalahan kuadrat lebih disukai adalah karena mencegah kesalahan besar lebih baik. - lalu mengapa tidak potong dadu?
Daniel Earwicker
@DanielEarwicker potong dadu membuat kesalahan dalam arah yang salah mengurangi. Jadi itu harus benar-benar kesalahan kubus, atau tetap berpegang pada kekuatan genap. Tidak ada alasan yang benar-benar "baik" bahwa kuadrat digunakan alih-alih kekuatan yang lebih tinggi (atau, tentu saja, fungsi penalti non-polinomial). Hanya mudah untuk menghitung, mudah untuk meminimalkan, dan melakukan pekerjaan.
Atsby
1
Tentu saja aku seharusnya mengatakan kekuatan genap yang lebih tinggi! :)
Daniel Earwicker
Ini tidak memiliki upvotes (saat ini) tetapi bukankah ini mengatakan sama dengan jawaban yang (saat ini) memiliki 15 suara (yaitu pencilan memiliki efek lebih besar)? Apakah ini tidak mendapatkan suara karena itu salah, atau karena melewatkan beberapa informasi penting? Atau karena tidak memiliki grafik yang cantik? ;-)
Darren Cook
@ DarrenCook Saya menduga pendekatan "modern" untuk statistik lebih suka MAD daripada OLS, dan menyarankan bahwa kesalahan kuadrat adalah "biasanya" lebih baik memberi saya beberapa downvotes.
Atsby
3

Secara teori Anda bisa menggunakan segala jenis fungsi kerugian. Fungsi kerugian absolut dan kuadrat kebetulan menjadi fungsi kerugian paling populer dan paling intuitif. Menurut entri wikipedia ini ,

Contoh umum melibatkan memperkirakan "lokasi." Di bawah asumsi statistik tipikal, rata-rata atau rata-rata adalah statistik untuk memperkirakan lokasi yang meminimalkan kerugian yang diharapkan yang dialami di bawah fungsi kerugian kesalahan kuadrat, sedangkan median adalah estimator yang meminimalkan kerugian yang diperkirakan dialami di bawah fungsi kerugian perbedaan mutlak. Estimator yang berbeda masih akan optimal dalam keadaan lain yang kurang umum.

Seperti juga dijelaskan dalam entri wikipedia, pilihan fungsi kerugian tergantung pada bagaimana Anda menilai penyimpangan dari objek yang Anda targetkan. Jika semua penyimpangan sama buruknya bagi Anda terlepas dari pertanda mereka, maka Anda dapat menggunakan fungsi kerugian absolut. Jika penyimpangan menjadi lebih buruk bagi Anda semakin jauh Anda dari optimal dan Anda tidak peduli apakah penyimpangan itu positif atau negatif, maka fungsi kuadrat kerugian adalah pilihan termudah Anda. Tetapi jika tidak ada definisi kerugian di atas yang sesuai dengan masalah Anda, karena mis. Penyimpangan kecil lebih buruk bagi Anda daripada penyimpangan besar, maka Anda dapat memilih fungsi kerugian yang berbeda dan mencoba menyelesaikan masalah meminimalkan. Namun sifat statistik dari solusi Anda mungkin sulit untuk dinilai.

Kristjan
sumber
Sedikit perincian: "Jika semua penyimpangan sama buruknya bagi Anda, tidak peduli tandanya ..": Fungsi MAD menghukum kesalahan secara linear-proporsional. Oleh karena itu kesalahan tidak 'sama buruknya' tetapi 'buruk secara proporsional' karena kesalahan dua kali mendapat hukuman dua kali lipat.
Jean-Paul
@ Jean-Paul: Anda benar. Maksud saya seperti itu. Apa yang ingin saya katakan dengan "sama buruknya" adalah bahwa gradien MAD adalah konstan sedangkan gradien untuk MSE tumbuh secara linear dengan kesalahan. Oleh karena itu, jika perbedaan antara dua kesalahan adalah konstan, tidak peduli seberapa jauh Anda optimal, sementara hal yang sama tidak berlaku untuk MSE. Saya harap, itu membuatnya sedikit lebih dimengerti apa yang ingin saya katakan.
kristjan
-1

Jawaban pendek

  1. nggak
  2. mean memiliki sifat statistik yang lebih menarik daripada median
ℕʘʘḆḽḘ
sumber
10
Akan lebih bagus jika Anda memenuhi syarat "properti statistik yang lebih menarik".
Momo