Apa yang akan menjadi contoh ketika L2 adalah fungsi kerugian yang baik untuk menghitung kerugian posterior?

9

Kehilangan L2, bersama dengan kehilangan L0 dan L1, adalah tiga fungsi kehilangan "standar" yang sangat umum digunakan ketika meringkas posterior dengan kehilangan posterior minimum yang diharapkan. Salah satu alasan untuk ini mungkin karena mereka relatif mudah untuk dihitung (setidaknya untuk 1d-distribusi), L0 menghasilkan mode, L1 di median dan L2 menghasilkan rata-rata. Saat mengajar, saya bisa membuat skenario di mana L0 dan L1 adalah fungsi kerugian yang wajar (dan bukan hanya "default"), tapi saya berjuang dengan skenario di mana L2 akan menjadi fungsi kerugian yang masuk akal. Jadi pertanyaan saya:

Untuk tujuan pedagogis, apa yang akan menjadi contoh ketika L2 adalah fungsi kerugian yang baik untuk menghitung kerugian posterior minimum?

Untuk L0 mudah untuk membuat skenario dari taruhan. Katakanlah Anda telah menghitung posterior dari jumlah total gol dalam pertandingan sepak bola yang akan datang dan Anda akan bertaruh di mana Anda menang $$$ jika Anda menebak dengan benar jumlah gol dan kalah sebaliknya. Maka L0 adalah fungsi kerugian yang masuk akal.

Contoh L1 saya sedikit dibuat-buat. Anda bertemu dengan seorang teman yang akan tiba di salah satu dari banyak bandara dan kemudian melakukan perjalanan dengan mobil, masalahnya adalah Anda tidak tahu bandara mana (dan tidak dapat menghubungi teman Anda karena dia sedang berada di udara). Diberikan posterior di bandara mana dia bisa mendarat, di mana tempat yang bagus untuk memposisikan dirimu sehingga jarak antara dia dan kamu akan kecil, ketika dia tiba? Di sini, titik yang meminimalkan kehilangan L1 yang diharapkan tampak masuk akal, jika membuat asumsi penyederhanaan bahwa mobilnya akan melaju dengan kecepatan konstan langsung ke lokasi Anda. Artinya, menunggu satu jam dua kali lebih buruk daripada menunggu 30 menit.

Rasmus Bååth
sumber
Peringatan: L0 tidak menghasilkan mode untuk masalah yang berkelanjutan ....
Xi'an
Hmm, ya saya tahu agak ceroboh untuk mengatakan mode L0 ->.
Rasmus Bååth
2
Melihat hukum kuadrat terbalik, jika Anda memiliki beberapa sumber cahaya yang ditempatkan sehingga setiap titik di ruang kita dapat memilih akan mendapatkan cahaya yang diabaikan dari semua kecuali sumber terdekat, menggunakan kehilangan L2 akan sama dengan yang ingin meminimalkan, katakanlah, nomor detik per lumen diterima. Saya tidak bisa memikirkan mengapa Anda ingin melakukan itu, daripada memaksimalkan lumen per detik.
Ahli Statistik Terkadang

Jawaban:

4
  1. L2 itu "mudah." Itu yang Anda dapatkan secara default jika Anda melakukan metode matriks standar seperti regresi linier, SVD, dll. Sampai kami memiliki komputer, L2 adalah satu-satunya permainan di kota untuk banyak masalah, itulah sebabnya semua orang menggunakan ANOVA, t-tes, dll. Ini juga lebih mudah untuk mendapatkan jawaban yang tepat menggunakan kerugian L2 dengan banyak metode yang lebih menarik seperti proses Gaussian daripada mendapatkan jawaban yang tepat menggunakan fungsi kerugian lainnya.

  2. Terkait, Anda bisa mendapatkan kerugian L2 persis menggunakan pendekatan orde-2 Taylor, yang bukan kasus untuk sebagian besar fungsi kerugian (misalnya lintas-entropi,). Ini membuat optimisasi mudah dengan metode urutan ke-2 seperti metode Newton. Banyak metode untuk menangani fungsi kerugian lainnya masih menggunakan metode untuk kehilangan L2 di bawah kap untuk alasan yang sama (misalnya kuadrat terkecil yang diulang-ulang secara berulang-ulang, perkiraan Laplace bersarang terintegrasi).

  3. L2 terkait erat dengan distribusi Gaussian, dan Teorema Limit Pusat membuat distribusi Gaussian umum. Jika proses menghasilkan data Anda (bersyarat) Gaussian, maka L2 adalah penduga yang paling efisien.

  4. Kehilangan L2 terurai dengan baik, karena hukum varian total. Itu membuat model grafis tertentu dengan variabel laten sangat mudah dipasang.

  5. L2 menghukum prediksi mengerikan secara tidak proporsional. Ini bisa baik atau buruk, tetapi seringkali cukup masuk akal. Menunggu satu jam mungkin empat kali lebih buruk dari menunggu selama 30 menit, jika hal itu menyebabkan banyak orang melewatkan janji mereka.

David J. Harris
sumber
2
Hmm, apa yang saya cari lebih seperti situasi keputusan di mana L2 akan menjadi kerugian yang masuk akal. Suka skenario yang mirip dengan dua contoh di pertanyaan saya, tetapi untuk L2.
Rasmus Bååth
1
@ RasmusBååth Saya tidak yakin tentang argumen untuk persis mengkuadratkan kerugian (terlepas dari hubungannya dengan Gaussian proses data pembangkit di # 3), tapi # 5 adalah argumen untuk fungsi kerugian percepatan dari beberapa jenis. Untuk urutan kedua, fungsi tersebut akan cocok dengan kehilangan L2.
David J. Harris
@ DavidJ.Harris Sebenarnya, # 5 salah. Apa yang akan Anda lakukan dalam kasus seperti ini adalah menggunakan L1 abs (xy) loss untuk meminimalkan frustrasi = waktu². Menggunakan kerugian (xy) ² untuk waktu, seperti yang Anda sarankan sebenarnya akan memberi Anda hasil yang kurang optimal.
Íhor Mé
@ ÍhorMé Saya pikir saya pasti salah paham dengan Anda. Sepertinya Anda mengatakan bahwa cara terbaik untuk meminimalkan kesalahan kuadrat adalah dengan meminimalkan kehilangan absolut , dan bukan norma L2.
David J. Harris
@ DavidJ.Harris Ya, saya mencoba menunjukkan bahwa ini adalah masalah meminimalkan "kejahatan" (= perbedaan waktu ²) dan tidak menghabiskan waktu menunggu, pada dasarnya, tapi saya pikir saya salah paham dengan eksperimen pikiran pada awalnya. Sekarang saya membaca ulang, L2 adalah cara yang sah untuk beralih dari meminimalkan perbedaan waktu ke meminimalkan "kejahatan". Meskipun, saya harus mengatakan, yang terbaik bagi seorang programmer untuk pertama-tama mengidentifikasi dengan benar "kejahatan" apa yang ingin ia perkecil, kemudian dapatkan nilai itu, kemudian perkecil melalui L1. Dalam hal ini Anda mendapatkan (perbedaan waktu) ² terlebih dahulu kemudian meminimalkan kerugian L1. Gunakan L2 hanya ketika Anda tahu apa yang Anda lakukan.
Íhor Mé