Interpretasi turunan Radon-Nikodym antara ukuran probabilitas?

11

Saya telah melihat di beberapa titik penggunaan turunan Radon-Nikodym dari satu ukuran probabilitas terhadap yang lain, terutama dalam divergensi Kullback-Leibler, di mana itu adalah turunan dari ukuran probabilitas model untuk beberapa parameter arbitrer sehubungan dengan parameter nyata :θ 0θθ0

dPθdPθ0

Di mana ini adalah kedua ukuran probabilitas pada ruang datapoint yang bergantung pada nilai parameter: .Pθ(D)=P(D|θ)

Apa interpretasi dari turunan Radon-Nikodym dalam perbedaan Kullback-Leibler, atau lebih umum antara dua ukuran probabilitas?

pengguna56834
sumber

Jawaban:

12

Pertama, kita tidak perlu ukuran probabilitas, hanya kehalusan. Jadi mari menjadi ruang terukur dan membiarkan dan menjadi -finite langkah-langkah pada .M = ( Ω , F ) μ ν σ MσM=(Ω,F)μνσM

The Radon-Nikodym Teorema menyatakan bahwa jika untuk semua , dinotasikan dengan , maka terdapat Borel non-negatif fungsi sehingga untuk semua .A F μ ν f ν ( A ) = A fμ(A)=0ν(A)=0AFμνfA F

ν(A)=Afdμ
AF

Begini cara saya suka memikirkan hal ini. Pertama, untuk dua ukuran pada , mari kita definisikan berarti . Ini adalah hubungan kesetaraan valid dan kita mengatakan bahwa dan yang setara dalam hal ini. Mengapa ini setara kesetaraan untuk tindakan? Ukuran hanyalah fungsi tetapi domainnya sulit untuk divisualisasikan. Bagaimana jika dua fungsi biasa memiliki properti ini, yaitu ? Baiklah, tentukan dan catat bahwa di mana saja dengan dukungan μ ν μ ( A ) = 0Mμνμ ν f , g : RR f ( x ) = 0μ(A)=0ν(A)=0μνf,g:RRh ( x ) = { f ( x ) / g ( xf(x)=0g(x)=0ggh=fggh=0πe=0=ffghgf0/0g=0hπe

h(x)={f(x)/g(x)g(x)0πeo.w.
g kita memiliki , dan di luar dukungan (karena dan berbagi dukungan) maka memungkinkan kita menskala ulang menjadi . Sebagai @whuber poin, gagasan kunci di sini adalah tidak entah bagaimana "aman" untuk melakukan atau mengabaikan, tetapi ketika maka tidak peduli apa tidak sehingga kita bisa hanya mendefinisikannya sewenang-wenang (seperti menjadi yang tidak memiliki arti khusus di sini) dan semuanya masih berfungsi. Juga dalam hal ini kita dapat mendefinisikan fungsi analog dengan sehinggagh=fg gh=0πe=0=ffghgf0/0g=0hπe g / f f h = ghg/ffh=g .

Selanjutnya anggaplah bahwa , tetapi arah lainnya tidak selalu berlaku. Ini berarti bahwa definisi kami sebelumnya masih bekerja, tapi sekarang tidak bekerja karena akan memiliki divisi yang sebenarnya dengan . Dengan demikian kita dapat menskala ulang menjadi melalui , tetapi kita tidak dapat pergi ke arah lain karena kita perlu menskala ulang sesuatu menjadi sesuatu yang bukan nol.h h 0 g f g h = f 0g(x)=0f(x)=0hh0gfgh=f0

Sekarang mari kita kembali ke dan dan menyatakan RND kita dengan . Jika , maka ini secara intuitif berarti bahwa satu dapat diubah menjadi yang lain, dan sebaliknya. Tetapi umumnya kita hanya ingin pergi satu arah dengan ini (yaitu skala ulang ukuran yang bagus seperti ukuran Lebesgue menjadi ukuran yang lebih abstrak) jadi kita hanya perlu untuk melakukan hal-hal yang berguna. Pengecilan ini adalah jantung dari RND.ν f μ ν μ νμνfμνμν

Kembali ke titik @ whuber di komentar, ada kehalusan ekstra mengapa aman untuk mengabaikan masalah . Itu karena dengan ukuran kita hanya mendefinisikan hal-hal hingga set ukuran sehingga pada set apa pun dengan kita bisa membuat RND kita mengambil nilai apa pun, katakan . Jadi bukan berarti secara intrinsik aman tetapi di mana pun kita memiliki adalah seperangkat ukuran wrt sehingga kita bisa mendefinisikan RND kita sebagai sesuatu yang menyenangkan di sana tanpa mempengaruhi apa pun.0 A μ ( A ) = 0 1 0 / 0 0 / 0 0 μ0/00Aμ(A)=010/00/00μ

Sebagai contoh, misalkan untuk beberapa . Kemudian sehingga kita memiliki adalah RND (ini dapat dibenarkan secara lebih formal dengan perubahan teorema tindakan). Ini bagus karena kami telah memulihkan faktor penskalaan dengan tepat.kμ=νk>0

ν(A)=Adν=Akdμ
f(x)=k=dνdμ

Berikut adalah contoh kedua untuk menekankan bagaimana mengubah RND pada set ukuran tidak memengaruhi mereka. Misalkan , yaitu standar PDF normal ditambah jika inputnya rasional, dan biarkan menjadi RV dengan kerapatan ini. Ini berarti jadi sebenarnya masih merupakan RV Gaussian standar. Itu tidak mempengaruhi distribusi dengan cara apa pun untuk mengubah pada karena itu adalah satuan ukuran wrt0f(x)=φ(x)+1Q(x)1X

P(XA)=A(φ+1Q)dλ
=Aφdλ+λ(Q)=Aφdλ
XXQ0λ .

Sebagai contoh terakhir, anggaplah dan dan biarkan dan menjadi distribusinya masing-masing. Ingat bahwa pmf adalah RND sehubungan dengan ukuran penghitungan , dan karena memiliki properti yang , ternyata XPois(η)YBin(n,p)PXPYccc(A)=0A=

dPYdPX=dPY/dcdPX/dc=fYfX

jadi kita dapat menghitung

PY(A)=AdPY
=AdPYdPXdPX=AdPYdPXdPXdcdc
=yAdPYdPX(y)dPXdc(y)=yAfY(y)fX(y)fX(y)=yAfY(y).

Jadi karena untuk semua dalam dukungan , kita dapat mengubah skala integrasi sehubungan dengan distribusi Poisson ke dalam integrasi sehubungan dengan distribusi binomial, meskipun karena semuanya diskrit ternyata tampak seperti sepele hasil.P(X=n)>0nY


Saya menjawab pertanyaan Anda yang lebih umum tetapi tidak menyentuh divergensi KL. Bagi saya, setidaknya, saya menemukan perbedaan KL jauh lebih mudah untuk ditafsirkan dalam hal pengujian hipotesis seperti jawaban @ kjetil b halvorsen di sini . Jika dan terdapat ukuran yang mendominasi keduanya maka gunakan kita dapat memulihkan formulir dengan kepadatan, jadi bagi saya saya menemukan itu lebih mudah.PQμdPdQ=dP/dμdQ/dμ:=p/q

jld
sumber
3
Saya menikmati eksposisi ini (karena saya menikmati semua kontribusi Anda), tetapi pada dasarnya sepertinya didasarkan pada pernyataan (berulang) bahwa masuk akal - tetapi tidak. Ada sesuatu yang terjadi dengan ukuran yang tidak secara otomatis terjadi dengan fungsi nilai nyata: Anda mungkin mengabaikan apa yang terjadi pada set ukuran nol. Begitulah cara Anda menghindari masuk akal dalam pengaturan turunan Radon-Nikodym. 0 / 00/00/0
Whuber
1
@whuber terima kasih banyak atas komentarnya, itu sangat membantu. Saya sudah mencoba memperbarui ke alamat itu
jld