Saya baru memulai dengan beberapa pembelajaran mesin, dan sampai sekarang saya telah berurusan dengan regresi linier atas satu variabel.
Saya telah belajar bahwa ada hipotesis, yaitu:
Untuk mengetahui nilai yang baik untuk parameter dan kami ingin meminimalkan perbedaan antara hasil yang dihitung dan hasil aktual dari data pengujian kami. Jadi kita kurangiθ 1
untuk semua dari hingga . Karenanya kami menghitung jumlah di atas perbedaan ini dan kemudian menghitung rata-rata dengan mengalikan jumlah dengan . Sejauh ini bagus. Ini akan menghasilkan:1 m 1
Tapi ini bukan yang disarankan. Alih-alih, kursus menyarankan untuk mengambil nilai kuadrat dari perbedaan, dan mengalikannya dengan . Jadi rumusnya adalah:
Mengapa demikian? Mengapa kita menggunakan fungsi kuadrat di sini, dan mengapa kita mengalikan dengan alih-alih ? 1
sumber
Jawaban:
Fungsi kerugian Anda tidak akan berfungsi karena ini memberikan insentif pengaturan ke nilai hingga apa pun dan hingga .θ1 θ0 −∞
Mari kita sebut yang sisa untuk .r(x,y)=1m∑mi=1hθ(x(i))−y h
Tujuan Anda adalah untuk membuat sedekat mungkin dengan nol , bukan hanya memperkecilnya . Nilai negatif tinggi sama buruknya dengan nilai positif tinggi.r
EDIT: Anda dapat melawan ini dengan secara artifisial membatasi ruang parameter (mis. Anda ingin ). Dalam hal ini, parameter optimal akan terletak pada titik-titik tertentu pada batas ruang parameter. Lihat https://math.stackexchange.com/q/896388/12467 . Ini bukan yang kamu inginkan.Θ |θ0|<10
Mengapa kita menggunakan kerugian kuadrat
Kesalahan kuadrat memaksa dan untuk mencocokkan. Ini diminimalkan pada , jika mungkin, dan selalu , karena itu adalah kuadrat dari bilangan real .h(x) y u=v ≥0 u−v
Jadi, mengapa kerugian kuadrat lebih baik daripada ini? Ini adalah pertanyaan mendalam terkait hubungan antara kesimpulan Frequentist dan Bayesian . Singkatnya, kesalahan kuadrat terkait dengan Gaussian Noise .
Jika data Anda tidak cocok untuk semua poin persis, yaitu tidak nol untuk beberapa titik tidak peduli apa Anda pilih (seperti yang akan selalu terjadi dalam praktek), itu mungkin karena dari kebisingan . Dalam sistem yang kompleks akan ada banyak penyebab independen kecil untuk perbedaan antara model Anda dan kenyataan : kesalahan pengukuran, faktor lingkungan dll. Dengan Central Limit Theorem (CLT), total kebisingan akan didistribusikan secara normal , yaitu sesuai dengan Distribusi Gaussian . Kami ingin memilih yang paling cocokh(x)−y θ h y θ memperhitungkan distribusi kebisingan ini. Asumsikan , bagian dari yang tidak dapat dijelaskan oleh model Anda, mengikuti distribusi Gaussian . Kami menggunakan huruf kapital karena kami berbicara tentang variabel acak sekarang.R=h(X)−Y y N(μ,σ)
Distribusi Gaussian memiliki dua parameter, berarti dan varians . Lihat di sini untuk memahami istilah-istilah ini dengan lebih baik.μ=E[R]=1m∑ihθ(X(i))−Y(i)) σ2=E[R2]=1m∑i(hθ(X(i))−Y(i)))2
Pertimbangkan , itu adalah kesalahan sistematik dari pengukuran kami. Gunakan untuk memperbaiki kesalahan sistematis, sehingga (latihan untuk pembaca). Tidak ada lagi yang bisa dilakukan di sini.μ h′(x)=h(x)−μ μ′=E[R′]=0
Untuk secara bersamaan memperhitungkan mean dan varians, kami menyertakan istilah bias dalam classifier kami (untuk menangani kesalahan sistematis ), kemudian meminimalkan kerugian kuadrat.μ
Pertanyaan tindak lanjut:
Rugi kuadrat terkecil = Kesalahan Gaussian. Apakah setiap fungsi kerugian lainnya juga sesuai dengan beberapa distribusi kebisingan? Iya. Misalnya, kerugian (meminimalkan nilai absolut alih-alih kesalahan kuadrat) sesuai dengan distribusi Laplace (Lihat rumus untuk PDF di kotak info - hanya Gaussian dengan alih-alih ). Kehilangan populer untuk distribusi probabilitas adalah KL-divergence . -Distribusi Gaussian sangat termotivasi karena Teorema Limit Sentralℓ1 |x−μ| (x−μ)2 , yang kita bahas sebelumnya. Kapan distribusi Laplace model kebisingan yang tepat? Ada beberapa keadaan di mana hal itu terjadi secara alami, tetapi itu lebih umum sebagai regulator untuk menegakkan sparsity : kerugian adalah yang paling tidak cembung di antara semua kerugian cembung.ℓ1
Apakah ada situasi di mana kita meminimalkan Mean dan Varians? Iya. Carilah Bias-Variance Trade-off . Di sini, kita melihat sekumpulan classifier dan menanyakan yang terbaik di antara mereka. Jika kita bertanya yang set pengklasifikasi adalah yang terbaik untuk masalah, meminimalkan baik bias dan varians menjadi penting. Ternyata selalu ada trade-off di antara mereka dan kami menggunakan regularisasi untuk mencapai kompromi.hθ∈H
Mengenai jangka12
1/2 tidak masalah dan sebenarnya, tidak juga - keduanya adalah konstanta. Nilai optimal dari akan tetap sama di kedua kasus.m θ
Ekspresi untuk gradien menjadi lebih cantik dengan , karena 2 dari istilah kuadrat dibatalkan.12
The berguna jika Anda memecahkan masalah ini dengan gradient descent. Kemudian gradien Anda menjadi rata-rata istilah alih-alih jumlah, jadi skalanya tidak berubah saat Anda menambahkan lebih banyak titik data.m m
nan
atauinf
. Untuk menghindarinya, normalisasikan saja jumlah titik data.Keputusan estetika ini digunakan di sini untuk mempertahankan konsistensi dengan persamaan di masa depan di mana Anda akan menambahkan istilah regularisasi . Jika Anda memasukkan , parameter regularisasi tidak akan bergantung pada ukuran dataset dan akan lebih dapat diinterpretasikan di seluruh masalah.m λ m
sumber
Koefisien 1/2 hanya untuk kenyamanan; itu membuat turunannya, yang sebenarnya fungsinya dioptimalkan, terlihat lebih bagus. 1 / m lebih mendasar; itu menunjukkan bahwa kami tertarik pada mean squared error. Ini memungkinkan Anda untuk membuat perbandingan yang adil saat mengubah ukuran sampel, dan mencegah overflow. Pengoptimal yang disebut "stochastic" menggunakan subset dari kumpulan data (m '<m). Ketika Anda memperkenalkan regularizer (istilah aditif untuk fungsi objektif), menggunakan faktor 1 / m memungkinkan Anda untuk menggunakan koefisien yang sama untuk regularizer terlepas dari ukuran sampel.
Adapun pertanyaan tentang mengapa kuadrat dan bukan hanya perbedaannya: tidakkah Anda ingin meremehkan akan dihukum sama dengan menaksir terlalu tinggi? Mengkuadratkan menghilangkan efek dari tanda kesalahan. Mengambil nilai absolut (norma L1) juga demikian, tetapi turunannya tidak ditentukan pada asalnya, sehingga memerlukan lebih banyak kecanggihan untuk digunakan. Norma L1 memiliki kegunaannya, jadi ingatlah, dan mungkin tanyakan pada guru apakah dia akan membahasnya.
sumber
Ukuran kesalahan dalam fungsi kerugian adalah 'jarak statistik'; berbeda dengan pemahaman populer dan pendahuluan jarak antara dua vektor dalam ruang Euclidean. Dengan 'jarak statistik' kami berusaha untuk memetakan 'dis-kesamaan' antara model yang diperkirakan dan model optimal ke ruang Euclidean.
Tidak ada aturan konstriktif mengenai perumusan 'jarak statistik' ini, tetapi jika pilihannya tepat maka pengurangan progresif dalam 'jarak' ini selama optimisasi diterjemahkan menjadi estimasi model yang semakin meningkat. Akibatnya, pilihan 'jarak statistik' atau ukuran kesalahan terkait dengan distribusi data yang mendasarinya.
Bahkan, ada beberapa ukuran jarak / kesalahan yang didefinisikan dengan baik untuk kelas yang berbeda dari distribusi statistik. Dianjurkan untuk memilih ukuran kesalahan berdasarkan distribusi data di tangan. Kebetulan bahwa distribusi Gaussian ada di mana-mana, dan akibatnya ukuran jarak yang terkait, norma L2 adalah ukuran kesalahan yang paling populer. Namun, ini bukan aturan dan ada data dunia nyata di mana implementasi optimisasi 'efisien' * akan mengadopsi ukuran kesalahan yang berbeda dari norma L2.
Pertimbangkan set divergensi Bregman . Representasi kanonik dari ukuran divergensi ini adalah norma L2 (kuadrat kesalahan). Ini juga termasuk entropi relatif (Kullback-Liebler divergence), jarak Euclidean umum (metrik Mahalanobis), dan fungsi Itakura-Saito. Anda dapat membaca lebih lanjut tentang hal ini dalam makalah ini tentang Divergensi Fungsional Bregman dan Estimasi Distribusi Bayesian .
Take-away: The L2-norm memiliki seperangkat sifat yang menarik yang menjadikannya pilihan populer untuk ukuran kesalahan (jawaban lain di sini telah menyebutkan beberapa di antaranya, cukup untuk cakupan pertanyaan ini), dan kesalahan kuadrat akan sesuai pilihan sebagian besar waktu. Namun demikian, ketika distribusi data memerlukannya, ada langkah-langkah kesalahan alternatif untuk dipilih, dan pilihannya sebagian besar tergantung pada formulasi rutin optimasi.
* Ukuran kesalahan 'yang sesuai' akan membuat fungsi kerugian cembung untuk optimasi, yang sangat membantu, berlawanan dengan beberapa ukuran kesalahan lainnya di mana fungsi kerugian adalah non-cembung dan dengan demikian sangat sulit.
sumber
Selain poin-poin penting yang dibuat oleh orang lain, menggunakan kesalahan kuadrat menempatkan penekanan yang lebih besar pada kesalahan yang lebih besar (apa yang terjadi dengan 1/2 ketika Anda menyamakannya vs 3/2?).
Memiliki algoritma yang menggerakkan kesalahan fraksional, yang kemungkinan akan menghasilkan klasifikasi yang benar atau perbedaan yang sangat kecil antara perkiraan dan kebenaran dasar, jika dibiarkan mendekati nol, sementara meninggalkan kesalahan besar sebagai kesalahan besar atau kesalahan klasifikasi, bukanlah karakteristik yang diinginkan dari sebuah algoritma.
Menggunakan kuadrat kesalahan menggunakan kesalahan sebagai bobot kepentingan tersirat untuk menyesuaikan prediksi.
sumber
Dalam formulasi Anda, Anda mencoba untuk mendapatkan penyimpangan rata-rata perkiraan Anda dari data yang diamati.
Jika nilai rata-rata aproksimasi Anda dekat atau sama dengan nilai rata-rata dari data yang diamati (sesuatu yang diinginkan dan sering terjadi dengan banyak skema aproksimasi), maka hasil formulasi Anda akan menjadi nol atau dapat diabaikan, karena kesalahan positif mengimbangi dengan negatif kesalahan. Ini mungkin mengarah pada kesimpulan bahwa perkiraan Anda bagus pada setiap sampel yang diamati, sementara itu mungkin tidak demikian. Itu sebabnya Anda menggunakan kuadrat kesalahan pada setiap sampel dan Anda menambahkannya (giliran Anda setiap kesalahan positif).
Tentu saja ini hanya solusi yang memungkinkan, karena Anda bisa menggunakan norma L1 (nilai absolut kesalahan pada setiap sampel) atau banyak lainnya, alih-alih norma L2.
sumber