Kehilangan L2, bersama dengan kehilangan L0 dan L1, adalah tiga fungsi kehilangan "standar" yang sangat umum digunakan ketika meringkas posterior dengan kehilangan posterior minimum yang diharapkan. Salah satu alasan untuk ini mungkin karena mereka relatif mudah untuk dihitung (setidaknya untuk 1d-distribusi), L0 menghasilkan mode, L1 di median dan L2 menghasilkan rata-rata. Saat mengajar, saya bisa membuat skenario di mana L0 dan L1 adalah fungsi kerugian yang wajar (dan bukan hanya "default"), tapi saya berjuang dengan skenario di mana L2 akan menjadi fungsi kerugian yang masuk akal. Jadi pertanyaan saya:
Untuk tujuan pedagogis, apa yang akan menjadi contoh ketika L2 adalah fungsi kerugian yang baik untuk menghitung kerugian posterior minimum?
Untuk L0 mudah untuk membuat skenario dari taruhan. Katakanlah Anda telah menghitung posterior dari jumlah total gol dalam pertandingan sepak bola yang akan datang dan Anda akan bertaruh di mana Anda menang $$$ jika Anda menebak dengan benar jumlah gol dan kalah sebaliknya. Maka L0 adalah fungsi kerugian yang masuk akal.
Contoh L1 saya sedikit dibuat-buat. Anda bertemu dengan seorang teman yang akan tiba di salah satu dari banyak bandara dan kemudian melakukan perjalanan dengan mobil, masalahnya adalah Anda tidak tahu bandara mana (dan tidak dapat menghubungi teman Anda karena dia sedang berada di udara). Diberikan posterior di bandara mana dia bisa mendarat, di mana tempat yang bagus untuk memposisikan dirimu sehingga jarak antara dia dan kamu akan kecil, ketika dia tiba? Di sini, titik yang meminimalkan kehilangan L1 yang diharapkan tampak masuk akal, jika membuat asumsi penyederhanaan bahwa mobilnya akan melaju dengan kecepatan konstan langsung ke lokasi Anda. Artinya, menunggu satu jam dua kali lebih buruk daripada menunggu 30 menit.
sumber
Jawaban:
L2 itu "mudah." Itu yang Anda dapatkan secara default jika Anda melakukan metode matriks standar seperti regresi linier, SVD, dll. Sampai kami memiliki komputer, L2 adalah satu-satunya permainan di kota untuk banyak masalah, itulah sebabnya semua orang menggunakan ANOVA, t-tes, dll. Ini juga lebih mudah untuk mendapatkan jawaban yang tepat menggunakan kerugian L2 dengan banyak metode yang lebih menarik seperti proses Gaussian daripada mendapatkan jawaban yang tepat menggunakan fungsi kerugian lainnya.
Terkait, Anda bisa mendapatkan kerugian L2 persis menggunakan pendekatan orde-2 Taylor, yang bukan kasus untuk sebagian besar fungsi kerugian (misalnya lintas-entropi,). Ini membuat optimisasi mudah dengan metode urutan ke-2 seperti metode Newton. Banyak metode untuk menangani fungsi kerugian lainnya masih menggunakan metode untuk kehilangan L2 di bawah kap untuk alasan yang sama (misalnya kuadrat terkecil yang diulang-ulang secara berulang-ulang, perkiraan Laplace bersarang terintegrasi).
L2 terkait erat dengan distribusi Gaussian, dan Teorema Limit Pusat membuat distribusi Gaussian umum. Jika proses menghasilkan data Anda (bersyarat) Gaussian, maka L2 adalah penduga yang paling efisien.
Kehilangan L2 terurai dengan baik, karena hukum varian total. Itu membuat model grafis tertentu dengan variabel laten sangat mudah dipasang.
L2 menghukum prediksi mengerikan secara tidak proporsional. Ini bisa baik atau buruk, tetapi seringkali cukup masuk akal. Menunggu satu jam mungkin empat kali lebih buruk dari menunggu selama 30 menit, jika hal itu menyebabkan banyak orang melewatkan janji mereka.
sumber