Dalam bab pertama buku Algebraic Geometry dan Statistical Learning Theory yang berbicara tentang konvergensi estimasi dalam ruang fungsional yang berbeda, disebutkan bahwa estimasi Bayesian sesuai dengan topologi distribusi Schwartz, sedangkan estimasi kemungkinan maksimum sesuai dengan topologi sup-norm. (di halaman 7):
Misalnya, sup-norm, -norm, topologi lemah ruang Hilbert , topologi distribusi Schwartz, dan sebagainya. Ini sangat tergantung pada topologi ruang fungsi apakah konvergensi bertahan atau tidak. Estimasi Bayes sesuai dengan topologi distribusi Schwartz, sedangkan kemungkinan maksimum atau metode posteriori sesuai dengan sup-norm. Perbedaan ini sangat mempengaruhi hasil belajar dalam model tunggal.
di mana dan K ( w ) masing-masing adalah KL-divergensi empiris (penjumlahan dari pengamatan) dan KL-divergensi yang sebenarnya (integral wrt distribusi data) antara model yang benar dan model parametrik (dengan parameter w ).
Adakah yang bisa memberikan penjelasan, atau memberi tahu saya tempat mana di buku yang memiliki justifikasi? Terima kasih.
Pembaruan : konten hak cipta dihapus.
Jawaban:
Untuk memahami diskusi Watanabe, penting untuk menyadari apa yang ia maksudkan dengan "singularitas". Singularitas (ketat) bertepatan dengan gagasan geometrik metrik singular dalam teorinya.
Dalam praktiknya, singularitas biasanya muncul ketika metrik informasi Fisher diinduksi oleh model di degenerasi pada manifold yang ditentukan oleh model, seperti kasus berpangkat rendah atau jarang dalam karya "pembelajaran mesin".
Apa yang dikatakan Watanabe tentang konvergensi divergensi KL empiris dengan nilai teoretisnya dapat dipahami sebagai berikut. Salah satu asal usul divergensi berasal dari statistik yang kuat. M-estimator, yang termasuk MLE sebagai kasus khusus dengan fungsi kontras , biasanya dibahas menggunakan topologi yang lemah. Adalah masuk akal untuk membahas perilaku konvergensi menggunakan topologi yang lemah atas ruang M ( X ) (manifold dari semua langkah yang mungkin didefinisikan pada ruang Polandia Xρ(θ,δ(X))=−logp(X∣θ) M(X) X ) karena kami ingin mempelajari perilaku ketahanan MLE. Teorema klasik dalam [Huber] menyatakan bahwa dengan fungsi divergensi terpisah dengan baik ( θ 0 , θ ) = E θ 0 ρ ( θ , δ ) . inf | θ - θ 0 | ≥ ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D(θ0,θ)=Eθ0ρ(θ,δ)
Jadi di sini penaksir Bayesian dan MLE menyimpang. Jika kita masih menggunakan topologi yang lemah untuk membahas konsistensi penaksir Bayesian, itu tidak ada artinya karena penaksir Bayesian akan selalu (dengan probabilitas satu) konsisten dengan Doob. Oleh karena itu topologi yang lebih tepat adalah topologi distribusi Schwarz yang memungkinkan derivatif yang lemah dan teori von Mises ikut bermain. Barron memiliki laporan teknis yang sangat bagus tentang topik ini bagaimana kita dapat menggunakan teorema Schwartz untuk mendapatkan konsistensi.
"Hasil belajar singular" dipengaruhi karena, seperti yang kita lihat, teorema konsistensi Doob memastikan bahwa estimator Bayesian menjadi lemah secara konsisten (bahkan dalam model tunggal) dalam topologi yang lemah sementara MLE harus memenuhi persyaratan tertentu dalam topologi yang sama.
Hanya satu kata, [Watanabe] bukan untuk pemula. Ini memiliki beberapa implikasi mendalam pada set analitik nyata yang membutuhkan kematangan matematis lebih dari yang dimiliki kebanyakan ahli statistik, jadi mungkin bukan ide yang baik untuk membacanya tanpa bimbingan yang tepat.
[Watanabe] Watanabe, Sumio. Geometri aljabar dan teori pembelajaran statistik. Vol. 25. Cambridge University Press, 2009.
[Huber] Huber, Peter J. "Perilaku perkiraan kemungkinan maksimum dalam kondisi tidak standar." Prosiding simposium Berkeley kelima pada statistik matematika dan probabilitas. Vol. 1. No. 1. 1967.
[Doob] Doob, Joseph L. "Penerapan teori martingales." Mendapat perhitungan dengan aplikasi (1949): 23-27.
sumber