Mengapa posterior Bayesian berkonsentrasi di sekitar minimiser divergence KL?

9

Pertimbangkan Bayesian posterior . Secara asimptotik, maksimum terjadi pada estimasi MLE , yang hanya memaksimalkan kemungkinan .θXθ^argminθfθ(X)

Semua konsep ini — prior Bayesian, memaksimalkan kemungkinan — terdengar super berprinsip dan sama sekali tidak sewenang-wenang. Tidak ada catatan yang terlihat.

Namun MLE meminimalkan divergensi KL antara distribusi nyata dan , yaitu, meminimalkanf~fθ(x)

KL(f~fθ)=+f~(x)[logf~(x)logfθ(x)]dx

Woah — darimana log ini berasal? Kenapa KL divergence pada khususnya?

Sebagai contoh, mengapa meminimalkan perbedaan yang tidak sesuai dengan konsep super berpose dan termotivasi dari poses Bayesian dan memaksimalkan kemungkinan di atas?

Tampaknya ada sesuatu yang istimewa tentang divergensi dan / atau log KL dalam konteks ini. Tentu saja, kita bisa melempar tangan kita ke udara dan mengatakan itu memang matematika. Tetapi saya curiga mungkin ada intuisi yang lebih dalam atau koneksi untuk mengungkap.

Yatharth Agarwal
sumber
Anda dapat menemukan beberapa ide di sini: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen
@kjetilbhalvorsen Judul sebelumnya terdengar seperti duplikat; Saya minta maaf. Saya telah mengedit, dan harus jelas mengapa pertanyaan ini bukan duplikat.
Yatharth Agarwal
Pertanyaan lain bertanya, "Apa itu KL divergence, dan mengapa tidak simetris?" Jawabannya menjelaskan konsep divergensi, dan beberapa info tentang KL. Sebaliknya, pertanyaan ini bertanya, "Mengapa posterior Bayesian berkonsentrasi di sekitar minimiser perbedaan KL?" Cukup dengan menjelaskan bagaimana divergensi tidak harus simetris dan menjelaskan KL dan menyatakan KL terhubung ke MLE gagal untuk mengatasi inti dari pertanyaan di sini: mengapa di antara banyak kemungkinan perbedaan apakah KL khususnya memiliki koneksi khusus ke posterior Bayesian. Apakah ini masuk akal?
Yatharth Agarwal
Ya, itu masuk akal, tetapi masih ada masalah. Posterior juga tergantung pada prior, dan jika itu kuat, posterior dapat memiliki max jauh dari mle. Tetapi prior tidak ada dari pertanyaan Anda.
kjetil b halvorsen
@ kjetilbhalversen yang saya maksud tanpa gejala dengan semakin banyak sampel IID dan dalam kondisi (ketat) di mana sebelumnya tidak masalah asimtotik!
Yatharth Agarwal

Jawaban:

5

Penggunaan logaritma dalam perhitungan seperti ini berasal dari teori informasi . Dalam kasus khusus divergensi KL, ukuran dapat ditafsirkan sebagai informasi relatif dari dua distribusi:

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

di mana adalah entropi dari dan adalah entropi silang dari dan . Entropi dapat dianggap sebagai ukuran tingkat rata-rata yang dihasilkan oleh suatu kepadatan (pikir cross-entropy sedikit lebih rumit). Meminimalkan perbedaan KL untuk nilai tetap (seperti dalam masalah yang Anda sebutkan) setara dengan meminimalkan entropi silang, dan optimasi ini dapat diberikan interpretasi informasi-teoretis.H(f~)f~H(f~,fθ)f~fθf~

Tidak mungkin bagi saya untuk memberikan penjelasan yang baik tentang teori informasi, dan sifat-sifat ukuran informasi, dalam posting singkat. Namun, saya akan merekomendasikan untuk melihat lapangan, karena memiliki koneksi yang dekat dengan statistik. Banyak langkah-langkah statistik yang melibatkan integral dan jumlah logaritma kepadatan adalah kombinasi sederhana dari langkah-langkah informasi standar yang digunakan dalam teori ukuran, dan dalam kasus seperti itu, mereka dapat diberikan interpretasi dalam hal tingkat informasi yang mendasarinya dalam berbagai kepadatan, dll.

Ben - Pasang kembali Monica
sumber
Melihat teori informasi kedengarannya menjanjikan! Terima kasih telah mengarahkan saya ke sana.
Yatharth Agarwal
Jelas, Anda tidak bisa menjelaskan seluruh bidang matematika dalam posting StackExchange, tetapi apakah Anda memiliki referensi khusus untuk mereka bahwa log muncul?
Yatharth Agarwal
Saya hanya berpikir ada intuisi yang mendalam di balik mengapa, katakanlah, e ada dalam persamaan Euler dan sebagainya, sehingga ada intuisi serupa yang bersembunyi di sini. Mungkin suatu produk membuat logaritma natural muncul. Saya tidak yakin.
Yatharth Agarwal
@Yatharth logaritma muncul di sini karena peran sentralnya dalam definisi entropi Shannon. Adapun "mengapa" logaritma sesuai untuk ukuran informasi, sebagai lawan dari fungsi lain, lihat teorema 2 dalam "Teori Komunikasi Matematika" Shannon. Juga, "Teori Informasi dan Mekanika Statistik" Jayne adalah pengantar yang bagus.
Nate Pope