Saya baru mulai belajar tentang statistik dan model barang. Saat ini, pemahaman saya adalah bahwa kami menggunakan MLE untuk memperkirakan parameter terbaik untuk suatu model. Namun, ketika saya mencoba memahami cara kerja jaringan saraf, sepertinya mereka biasanya menggunakan pendekatan lain untuk memperkirakan parameter. Mengapa kita tidak menggunakan MLE atau mungkinkah menggunakan MLE sama sekali?
Dalam masalah klasifikasi, memaksimalkan kemungkinan adalah cara paling umum untuk melatih jaringan saraf (baik model yang diawasi maupun yang tidak diawasi).
Dalam praktiknya, kami biasanya meminimalkan kemungkinan log negatif (MLE ekuivalen). Satu-satunya kendala untuk menggunakan log-likelihood negatif adalah memiliki layer output yang dapat diartikan sebagai distribusi probabilitas. Lapisan output softmax biasanya digunakan untuk melakukannya. Perhatikan bahwa dalam komunitas jaringan saraf, kemungkinan log negatif kadang-kadang disebut sebagai entropi silang. Istilah pengaturan tentu saja dapat ditambahkan (dan kadang-kadang dapat ditafsirkan sebagai distribusi sebelumnya atas parameter, dalam hal ini kami sedang mencari maksimum a posteriori ( MAP )).
sumber