Pertimbangkan Bayesian posterior . Secara asimptotik, maksimum terjadi pada estimasi MLE , yang hanya memaksimalkan kemungkinan .
Semua konsep ini — prior Bayesian, memaksimalkan kemungkinan — terdengar super berprinsip dan sama sekali tidak sewenang-wenang. Tidak ada catatan yang terlihat.
Namun MLE meminimalkan divergensi KL antara distribusi nyata dan , yaitu, meminimalkan
Woah — darimana log ini berasal? Kenapa KL divergence pada khususnya?
Sebagai contoh, mengapa meminimalkan perbedaan yang tidak sesuai dengan konsep super berpose dan termotivasi dari poses Bayesian dan memaksimalkan kemungkinan di atas?
Tampaknya ada sesuatu yang istimewa tentang divergensi dan / atau log KL dalam konteks ini. Tentu saja, kita bisa melempar tangan kita ke udara dan mengatakan itu memang matematika. Tetapi saya curiga mungkin ada intuisi yang lebih dalam atau koneksi untuk mengungkap.
sumber
Jawaban:
Penggunaan logaritma dalam perhitungan seperti ini berasal dari teori informasi . Dalam kasus khusus divergensi KL, ukuran dapat ditafsirkan sebagai informasi relatif dari dua distribusi:
di mana adalah entropi dari dan adalah entropi silang dari dan . Entropi dapat dianggap sebagai ukuran tingkat rata-rata yang dihasilkan oleh suatu kepadatan (pikir cross-entropy sedikit lebih rumit). Meminimalkan perbedaan KL untuk nilai tetap (seperti dalam masalah yang Anda sebutkan) setara dengan meminimalkan entropi silang, dan optimasi ini dapat diberikan interpretasi informasi-teoretis.H(f~) f~ H(f~,fθ) f~ fθ f~
Tidak mungkin bagi saya untuk memberikan penjelasan yang baik tentang teori informasi, dan sifat-sifat ukuran informasi, dalam posting singkat. Namun, saya akan merekomendasikan untuk melihat lapangan, karena memiliki koneksi yang dekat dengan statistik. Banyak langkah-langkah statistik yang melibatkan integral dan jumlah logaritma kepadatan adalah kombinasi sederhana dari langkah-langkah informasi standar yang digunakan dalam teori ukuran, dan dalam kasus seperti itu, mereka dapat diberikan interpretasi dalam hal tingkat informasi yang mendasarinya dalam berbagai kepadatan, dll.
sumber