Mengapa kita meminimalkan kemungkinan negatif jika itu setara dengan memaksimalkan kemungkinan?

47

Pertanyaan ini sudah lama membuat saya bingung. Saya mengerti penggunaan 'log' dalam memaksimalkan kemungkinan jadi saya tidak bertanya tentang 'log'.

Pertanyaan saya adalah, karena memaksimalkan kemungkinan log sama dengan meminimalkan "negative log likelihood" (NLL), mengapa kami menciptakan NLL ini? Mengapa kita tidak menggunakan "kemungkinan positif" sepanjang waktu? Dalam keadaan apa NLL disukai?

Saya menemukan sedikit penjelasan di sini. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , dan sepertinya menjelaskan kesetaraan yang jelas secara mendalam, tetapi tidak menyelesaikan kebingungan saya.

Penjelasan apa pun akan dihargai.

Tony
sumber
3
Kemungkinan Log Maksimum bukanlah fungsi kerugian tetapi negatifnya adalah seperti yang dijelaskan dalam artikel di bagian terakhir. Ini adalah masalah konsistensi. Misalkan Anda memiliki sistem pembelajaran pintar yang mencoba berbagai fungsi kerugian untuk suatu masalah. Himpunan fungsi kerugian akan berisi kerugian kuadrat, kehilangan absolut, dll. Untuk memiliki daftar yang konsisten, Anda akan menambahkan kemungkinan log negatif ke daftar fungsi kerugian.
Cagdas Ozgenc

Jawaban:

41

Ini adalah jawaban alternatif : pengoptimal dalam paket statistik biasanya bekerja dengan meminimalkan hasil suatu fungsi. Jika fungsi Anda memberikan nilai kemungkinan terlebih dahulu, lebih mudah menggunakan logaritma untuk mengurangi nilai yang dikembalikan oleh fungsi kemungkinan. Kemudian, karena fungsi log likelihood dan likelihood memiliki tren kenaikan atau penurunan yang sama, Anda dapat meminimalkan kemungkinan log negatif untuk benar-benar melakukan estimasi kemungkinan maksimum dari fungsi yang Anda uji. Lihat misalnya nlminbfungsi dalam R di sini

Nicola Dinapoli
sumber
10
Saya akan mengatakan ini bahkan melampaui pengoptimal dan berakar pada konvensi dalam teori optimasi. Sepertinya minimisasi sering dianggap sebagai optimasi default. Misalnya, perhatikan nama "optimasi cembung", yang sejalan dengan minimalisasi tetapi bisa dengan mudah disebut "optimasi cekung".
Bitwise
47

Pengoptimal biasanya meminimalkan suatu fungsi, jadi kami menggunakan kemungkinan log negatif sebagai meminimalkan yang setara dengan memaksimalkan kemungkinan log atau kemungkinan itu sendiri.

Hanya untuk kelengkapan, saya akan menyebutkan bahwa logaritma adalah fungsi monoton, jadi mengoptimalkan fungsi sama dengan mengoptimalkan logaritma itu. Melakukan transformasi log dari fungsi kemungkinan membuatnya lebih mudah untuk ditangani (perkalian menjadi jumlah) dan ini juga lebih stabil secara numerik. Ini karena besarnya kemungkinan bisa sangat kecil. Melakukan transformasi log mengubah angka-angka kecil ini menjadi nilai negatif yang lebih besar yang dapat ditangani mesin presisi hingga dengan lebih baik.

Luca
sumber
4
Sebagai contoh, saya sering menemukan kemungkinan log -40.000 dalam pekerjaan saya. Dalam rezim ini secara numerik tidak mungkin untuk bekerja dengan kemungkinan itu sendiri.
Will Vousden
3

Di sini meminimalkan berarti mengurangi jarak dua distribusi ke titik terendah: target distribusi Bernoulli dan distribusi hasil yang dihasilkan. Kami mengukur jarak dua distribusi menggunakan Kullback-Leibler divergence (juga disebut relatif entropi), dan karena teori jumlah besar meminimalkan KL divergence adalah jumlah untuk meminimalkan cross entropy (Entropy lintas multiclass, lihat di sini atau klasifikasi biner, lihat di sini dan di sini ).

Jadi

memaksimalkan kemungkinan log sama dengan meminimalkan "kemungkinan log negatif"

dapat diterjemahkan ke

Memaksimalkan kemungkinan log sama dengan meminimalkan jarak antara dua distribusi, sehingga setara dengan meminimalkan divergensi KL, dan kemudian entropi silang.

Saya pikir itu sudah menjadi sangat intuitif.

Lerner Zhang
sumber
1

Jawabannya lebih sederhana dari yang Anda kira. Ini adalah konvensi yang kami sebut fungsi objektif optimasi sebagai "fungsi biaya" atau "fungsi kerugian" dan oleh karena itu, kami ingin meminimalkannya, daripada memaksimalkannya, dan karenanya kemungkinan log negatif dibentuk, daripada kemungkinan positif pada Anda kata. Secara teknis keduanya benar. Ngomong-ngomong, jika kita ingin memaksimalkan sesuatu, biasanya kita menyebutnya "fungsi utilitas" dan karenanya tujuannya adalah untuk memaksimalkannya.

Yang
sumber