Pertanyaan ini sudah lama membuat saya bingung. Saya mengerti penggunaan 'log' dalam memaksimalkan kemungkinan jadi saya tidak bertanya tentang 'log'.
Pertanyaan saya adalah, karena memaksimalkan kemungkinan log sama dengan meminimalkan "negative log likelihood" (NLL), mengapa kami menciptakan NLL ini? Mengapa kita tidak menggunakan "kemungkinan positif" sepanjang waktu? Dalam keadaan apa NLL disukai?
Saya menemukan sedikit penjelasan di sini. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , dan sepertinya menjelaskan kesetaraan yang jelas secara mendalam, tetapi tidak menyelesaikan kebingungan saya.
Penjelasan apa pun akan dihargai.
Jawaban:
Ini adalah jawaban alternatif : pengoptimal dalam paket statistik biasanya bekerja dengan meminimalkan hasil suatu fungsi. Jika fungsi Anda memberikan nilai kemungkinan terlebih dahulu, lebih mudah menggunakan logaritma untuk mengurangi nilai yang dikembalikan oleh fungsi kemungkinan. Kemudian, karena fungsi log likelihood dan likelihood memiliki tren kenaikan atau penurunan yang sama, Anda dapat meminimalkan kemungkinan log negatif untuk benar-benar melakukan estimasi kemungkinan maksimum dari fungsi yang Anda uji. Lihat misalnya
nlminb
fungsi dalam R di sinisumber
Pengoptimal biasanya meminimalkan suatu fungsi, jadi kami menggunakan kemungkinan log negatif sebagai meminimalkan yang setara dengan memaksimalkan kemungkinan log atau kemungkinan itu sendiri.
Hanya untuk kelengkapan, saya akan menyebutkan bahwa logaritma adalah fungsi monoton, jadi mengoptimalkan fungsi sama dengan mengoptimalkan logaritma itu. Melakukan transformasi log dari fungsi kemungkinan membuatnya lebih mudah untuk ditangani (perkalian menjadi jumlah) dan ini juga lebih stabil secara numerik. Ini karena besarnya kemungkinan bisa sangat kecil. Melakukan transformasi log mengubah angka-angka kecil ini menjadi nilai negatif yang lebih besar yang dapat ditangani mesin presisi hingga dengan lebih baik.
sumber
Di sini meminimalkan berarti mengurangi jarak dua distribusi ke titik terendah: target distribusi Bernoulli dan distribusi hasil yang dihasilkan. Kami mengukur jarak dua distribusi menggunakan Kullback-Leibler divergence (juga disebut relatif entropi), dan karena teori jumlah besar meminimalkan KL divergence adalah jumlah untuk meminimalkan cross entropy (Entropy lintas multiclass, lihat di sini atau klasifikasi biner, lihat di sini dan di sini ).
Jadi
dapat diterjemahkan ke
Memaksimalkan kemungkinan log sama dengan meminimalkan jarak antara dua distribusi, sehingga setara dengan meminimalkan divergensi KL, dan kemudian entropi silang.
Saya pikir itu sudah menjadi sangat intuitif.
sumber
Jawabannya lebih sederhana dari yang Anda kira. Ini adalah konvensi yang kami sebut fungsi objektif optimasi sebagai "fungsi biaya" atau "fungsi kerugian" dan oleh karena itu, kami ingin meminimalkannya, daripada memaksimalkannya, dan karenanya kemungkinan log negatif dibentuk, daripada kemungkinan positif pada Anda kata. Secara teknis keduanya benar. Ngomong-ngomong, jika kita ingin memaksimalkan sesuatu, biasanya kita menyebutnya "fungsi utilitas" dan karenanya tujuannya adalah untuk memaksimalkannya.
sumber