Mengapa MAP bertemu dengan MLE?

8

Dalam "pembelajaran mesin Kevin Murphy: Perspektif probabilistik", bab 3.2, penulis menunjukkan pembelajaran konsep Bayesian pada contoh yang disebut "permainan angka": Setelah mengamati N sampel dari {1,...,100}, kami ingin memilih hipotesis hyang paling menggambarkan aturan yang menghasilkan sampel. Misalnya "bilangan genap" atau "bilangan prima".

Estimasi a-posteriori maksimum dan kemungkinan maksimum didefinisikan sebagai:

h^MAP=argmaxh p(D|h)p(h)=argmaxh[logp(D|h)+logp(h)],

h^MLE=argmaxh p(D|h)=argmaxhlogp(D|h),

di mana mewakili probabilitas sebelumnya dari berbagai hipotesis dan posterior didefinisikan sebagai:p(h)

p(D|h)=[1|h|]N,

iff , yaitu, seberapa besar kemungkinan pengambilan sampel yang seragam dengan penggantian dari hipotesis akan menghasilkan set . Secara intuitif ini berarti bahwa posterior tertinggi untuk hipotesis "terkecil". Misalnya, hipotesis "kekuatan 2" menjelaskan pengamatan lebih baik daripada "bilangan genap".DhhD{2,4,8,16,64}

Semua ini jelas. Namun, saya bingung tentang kalimat berikut (meskipun secara intuitif masuk akal):

Karena jangka waktu kemungkinan tergantung secara eksponensial pada , dan sebelumnya tetap konstan, karena kami mendapatkan lebih banyak data, estimasi MAP menyatu ke arah perkiraan kemungkinan maksimum.N

Memang benar bahwa kemungkinan tergantung secara eksponensial pada , namun, angka eksponensial berada dalam interval dan sebagai , , sehingga kemungkinan seharusnya benar-benar menghilang.N(0,1)NxN0

Mengapa MAP bertemu dengan MLE dalam kasus ini?

Jan Kukacka
sumber
1
Ini adalah konsekuensi dari teorema Bernstein - von Mises: nber.org/WNE/Slides7-31-07/slides_7_bayes.pdf (mulai dari slide 9.) Juga: andrewgelman.com/2017/11/27/asymptotically-we- semuanya mati .
jbowman
Terima kasih untuk referensi. Namun, bagaimana mereka menjelaskan contoh yang kontradiktif ini?
Jan Kukacka
Stat
Tim

Jawaban:

5

Ada dua masalah di sini, pertama, mengapa MAP bertemu dengan MLE secara umum (tetapi tidak selalu) dan masalah "kemungkinan lenyapnya".

Untuk masalah pertama, kami merujuk diri pada teorema Bernstein - von Mises. Esensi dari hal itu adalah bahwa, ketika ukuran sampel bertambah, informasi relatif yang terkandung dalam data sebelum dan dalam bergeser ke data, sehingga posterior menjadi lebih terkonsentrasi di sekitar perkiraan hanya data MLE, dan puncaknya. sebenarnya konvergen ke MLE (dengan peringatan biasa bahwa asumsi tertentu harus dipenuhi.) Lihat halaman Wikipedia untuk ikhtisar singkat.

Untuk masalah kedua, ini terjadi karena Anda belum menormalkan kepadatan posterior. Dengan Aturan Bayes:

P(h|D)=P(D|h)p(h)p(D)

dan, meskipun as , seperti yang Anda amati, begitu juga . Untuk sedikit lebih konkret, jika kita mengasumsikan dua hipotesis dan , kita menemukan posterior dengan:P(D|h)0nP(D)h1h2

P(h1|D)=P(D|h1)p(h1)P(D|h1)p(h1)+P(D|h2)p(h2)

Baik pembilang dan penyebut memiliki istilah yang dinaikkan ke kekuatan , sehingga keduanya sebagai , tetapi harus jelas bahwa normalisasi yang diperlukan memperbaiki masalah yang seharusnya disebabkan oleh hal ini.N0N

Jbowman
sumber