Ketika kami melakukan regresi linier agar sesuai dengan banyak titik data , pendekatan klasik meminimalkan kesalahan kuadrat. Saya sudah lama bingung dengan pertanyaan yang akan meminimalkan kesalahan kuadrat menghasilkan hasil yang sama dengan meminimalkan kesalahan absolut ? Jika tidak, mengapa meminimalkan kesalahan kuadrat lebih baik? Adakah alasan lain selain "fungsi objektif dapat dibedakan"?( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n )
Kesalahan kuadrat juga banyak digunakan untuk mengevaluasi kinerja model, tetapi kesalahan absolut kurang populer. Mengapa kesalahan kuadrat lebih umum digunakan daripada kesalahan absolut? Jika mengambil turunan tidak terlibat, menghitung kesalahan absolut semudah menghitung kesalahan kuadrat, lalu mengapa kesalahan kuadrat begitu lazim ? Adakah keuntungan unik yang bisa menjelaskan prevalensinya?
Terima kasih.
sumber
Jawaban:
Meminimalkan kesalahan kuadrat (MSE) jelas tidak sama dengan meminimalkan penyimpangan absolut (MAD) kesalahan. MSE memberikan respons rata - rata dikondisikan pada , sedangkan MAD memberikan respons median dikondisikan pada .xy x xy x
Secara historis, Laplace awalnya dianggap sebagai kesalahan maksimum yang diamati sebagai ukuran dari kebenaran suatu model. Dia segera pindah ke mempertimbangkan MAD sebagai gantinya. Karena ketidakmampuannya dalam menyelesaikan kedua situasi, ia segera mempertimbangkan diferensial MSE. Dirinya sendiri dan Gauss (tampaknya bersamaan) memperoleh persamaan normal, solusi bentuk-tertutup untuk masalah ini. Saat ini, menyelesaikan MAD relatif mudah dengan menggunakan pemrograman linier. Seperti diketahui, pemrograman linier tidak memiliki solusi bentuk tertutup.
Dari perspektif optimasi, keduanya sesuai dengan fungsi cembung. Namun, MSE dapat dibedakan, dengan demikian, memungkinkan untuk metode berbasis gradien, jauh lebih efisien daripada yang tidak terdiferensiasi. MAD tidak dapat dibedakan pada .x = 0
Alasan teoritis lebih lanjut adalah bahwa, dalam pengaturan bayesian, ketika mengasumsikan prior seragam dari parameter model, MSE menghasilkan kesalahan terdistribusi normal, yang telah diambil sebagai bukti ketepatan metode. Para ahli teori menyukai distribusi normal karena mereka percaya itu adalah fakta empiris, sedangkan eksperimen menyukainya karena mereka percaya itu hasil teoretis.
Alasan terakhir mengapa MSE mungkin memiliki penerimaan luas yang dimiliki MSE adalah bahwa ia didasarkan pada jarak euclidean (sebenarnya itu adalah solusi dari masalah proyeksi pada ruang banach euclidean) yang sangat intuitif mengingat kenyataan geometris kita.
sumber
Sebagai penjelasan alternatif, pertimbangkan intuisi berikut:
Saat meminimalkan kesalahan, kita harus memutuskan bagaimana cara menghukum kesalahan ini. Memang, pendekatan yang paling mudah untuk menghukum kesalahan adalah dengan menggunakan
linearly proportional
fungsi penalti. Dengan fungsi seperti itu, setiap penyimpangan dari rata-rata diberi kesalahan yang sesuai secara proporsional. Oleh karena itu, dua kali jauh dari rata-rata akan menghasilkan dua kali penalti.Pendekatan yang lebih umum adalah untuk mempertimbangkan
squared proportional
hubungan antara penyimpangan dari rata-rata dan hukuman yang sesuai. Ini akan memastikan bahwa semakin jauh Anda dari rata-rata, semakin Anda akan dihukum secara proporsional . Dengan menggunakan fungsi penalti ini, outlier (jauh dari rata-rata) secara proporsional dianggap lebih informatif daripada pengamatan di dekat rata-rata.Untuk memberikan visualisasi tentang hal ini, Anda dapat memplot fungsi penalti:
Sekarang terutama ketika mempertimbangkan estimasi regresi (misalnya OLS), fungsi penalti yang berbeda akan menghasilkan hasil yang berbeda. Dengan menggunakan
linearly proportional
fungsi penalti, regresi akan menetapkan bobot yang lebih kecil untuk pencilan daripada saat menggunakansquared proportional
fungsi penalti. Median Absolute Deviation (MAD) dikenal sebagai penduga yang lebih kuat . Secara umum, oleh karena itu kasus bahwa estimator yang kuat cocok dengan sebagian besar poin data dengan baik tetapi 'mengabaikan' outlier. Sebagai perbandingan, kuadrat yang paling cocok ditarik lebih ke arah outlier. Berikut ini visualisasi untuk perbandingan:Sekarang meskipun OLS cukup standar, fungsi penalti yang berbeda pasti digunakan juga. Sebagai contoh, Anda dapat melihat fungsi robustfit Matlab yang memungkinkan Anda untuk memilih fungsi penalti yang berbeda (juga disebut 'bobot') untuk regresi Anda. Fungsi penalti termasuk andrews, bisquare, cauchy, fair, huber, logistik, ols, talwar dan welsch. Ekspresi yang sesuai dapat ditemukan di situs web juga.
Saya harap ini membantu Anda mendapatkan sedikit intuisi untuk fungsi penalti :)
Memperbarui
Jika Anda memiliki Matlab, saya dapat merekomendasikan bermain dengan Matlab's robustdemo , yang dibangun khusus untuk perbandingan kuadrat terkecil biasa dengan regresi kuat:
Demo ini memungkinkan Anda untuk menarik poin individual dan segera melihat dampaknya pada kuadrat terkecil biasa dan regresi kuat (yang sempurna untuk tujuan pengajaran!).
sumber
Seperti jawaban lain telah menjelaskan, meminimalkan kesalahan kuadrat tidak sama dengan meminimalkan kesalahan absolut.
Alasan meminimalkan kesalahan kuadrat lebih disukai adalah karena mencegah kesalahan besar lebih baik.
Katakanlah departemen penggajian karyawan Anda secara tidak sengaja membayar masing-masing dari total sepuluh karyawan $ 50 kurang dari yang dibutuhkan. Itu kesalahan absolut $ 500. Ini juga kesalahan absolut $ 500 jika departemen hanya membayar satu karyawan lebih sedikit $ 500. Tapi dari segi kesalahan kuadrat, itu 25000 versus 250000.
Tidak selalu lebih baik menggunakan kesalahan kuadrat. Jika Anda memiliki kumpulan data dengan outlier ekstrem karena kesalahan akuisisi data, meminimalkan kesalahan kuadrat akan menarik kecocokan terhadap outlier ekstrem lebih dari meminimalkan kesalahan absolut. Yang sedang berkata, itu-biasanya- lebih baik menggunakan kesalahan kuadrat.
sumber
Secara teori Anda bisa menggunakan segala jenis fungsi kerugian. Fungsi kerugian absolut dan kuadrat kebetulan menjadi fungsi kerugian paling populer dan paling intuitif. Menurut entri wikipedia ini ,
Seperti juga dijelaskan dalam entri wikipedia, pilihan fungsi kerugian tergantung pada bagaimana Anda menilai penyimpangan dari objek yang Anda targetkan. Jika semua penyimpangan sama buruknya bagi Anda terlepas dari pertanda mereka, maka Anda dapat menggunakan fungsi kerugian absolut. Jika penyimpangan menjadi lebih buruk bagi Anda semakin jauh Anda dari optimal dan Anda tidak peduli apakah penyimpangan itu positif atau negatif, maka fungsi kuadrat kerugian adalah pilihan termudah Anda. Tetapi jika tidak ada definisi kerugian di atas yang sesuai dengan masalah Anda, karena mis. Penyimpangan kecil lebih buruk bagi Anda daripada penyimpangan besar, maka Anda dapat memilih fungsi kerugian yang berbeda dan mencoba menyelesaikan masalah meminimalkan. Namun sifat statistik dari solusi Anda mungkin sulit untuk dinilai.
sumber
Jawaban pendek
sumber