Pertama, kita tidak perlu ukuran probabilitas, hanya kehalusan. Jadi mari menjadi ruang terukur dan membiarkan dan menjadi -finite langkah-langkah pada .M = ( Ω , F ) μ ν σ MσM=(Ω,F)μνσM
The Radon-Nikodym Teorema menyatakan bahwa jika untuk semua , dinotasikan dengan , maka terdapat Borel non-negatif fungsi sehingga
untuk semua .A ∈ F μ ≫ ν f ν ( A ) = ∫ A fμ(A)=0⟹ν(A)=0A∈Fμ≫νfA ∈ F
ν(A)=∫Afdμ
A∈F
Begini cara saya suka memikirkan hal ini. Pertama, untuk dua ukuran pada , mari kita definisikan berarti . Ini adalah hubungan kesetaraan valid dan kita mengatakan bahwa dan yang setara dalam hal ini. Mengapa ini setara kesetaraan untuk tindakan? Ukuran hanyalah fungsi tetapi domainnya sulit untuk divisualisasikan. Bagaimana jika dua fungsi biasa memiliki properti ini, yaitu ? Baiklah, tentukan
dan catat bahwa di mana saja dengan dukungan μ ∼ ν μ ( A ) = 0Mμ∼νμ ν f , g : R → R f ( x ) = 0μ(A)=0⟺ν(A)=0μνf,g:R→Rh ( x ) = { f ( x ) / g ( xf(x)=0⟺g(x)=0ggh=fggh=0⋅πe=0=ffghgf0/0g=0hπe
h(x)={f(x)/g(x)πeg(x)≠0o.w.
g kita memiliki , dan di luar dukungan (karena dan berbagi dukungan) maka memungkinkan kita menskala ulang menjadi . Sebagai @whuber poin, gagasan kunci di sini adalah tidak entah bagaimana "aman" untuk melakukan atau mengabaikan, tetapi ketika maka tidak peduli apa tidak sehingga kita bisa hanya mendefinisikannya sewenang-wenang (seperti menjadi yang tidak memiliki arti khusus di sini) dan semuanya masih berfungsi. Juga dalam hal ini kita dapat mendefinisikan fungsi analog dengan sehingga
gh=fg gh=0⋅πe=0=ffghgf0/0g=0hπe g / f f h ′ = gh′g/ffh′=g .
Selanjutnya anggaplah bahwa , tetapi arah lainnya tidak selalu berlaku. Ini berarti bahwa definisi kami sebelumnya masih bekerja, tapi sekarang tidak bekerja karena akan memiliki divisi yang sebenarnya dengan . Dengan demikian kita dapat menskala ulang menjadi melalui , tetapi kita tidak dapat pergi ke arah lain karena kita perlu menskala ulang sesuatu menjadi sesuatu yang bukan nol.h h ′ 0 g f g h = f 0g(x)=0⟹f(x)=0hh′0gfgh=f0
Sekarang mari kita kembali ke dan dan menyatakan RND kita dengan . Jika , maka ini secara intuitif berarti bahwa satu dapat diubah menjadi yang lain, dan sebaliknya. Tetapi umumnya kita hanya ingin pergi satu arah dengan ini (yaitu skala ulang ukuran yang bagus seperti ukuran Lebesgue menjadi ukuran yang lebih abstrak) jadi kita hanya perlu untuk melakukan hal-hal yang berguna. Pengecilan ini adalah jantung dari RND.ν f μ ∼ ν μ ≫ νμνfμ∼νμ≫ν
Kembali ke titik @ whuber di komentar, ada kehalusan ekstra mengapa aman untuk mengabaikan masalah . Itu karena dengan ukuran kita hanya mendefinisikan hal-hal hingga set ukuran sehingga pada set apa pun dengan kita bisa membuat RND kita mengambil nilai apa pun, katakan . Jadi bukan berarti secara intrinsik aman tetapi di mana pun kita memiliki adalah seperangkat ukuran wrt sehingga kita bisa mendefinisikan RND kita sebagai sesuatu yang menyenangkan di sana tanpa mempengaruhi apa pun.0 A μ ( A ) = 0 1 0 / 0 0 / 0 0 μ0/00Aμ(A)=010/00/00μ
Sebagai contoh, misalkan untuk beberapa . Kemudian
sehingga kita memiliki adalah RND (ini dapat dibenarkan secara lebih formal dengan perubahan teorema tindakan). Ini bagus karena kami telah memulihkan faktor penskalaan dengan tepat.k⋅μ=νk>0
ν(A)=∫Adν=∫Akdμ
f(x)=k=dνdμ
Berikut adalah contoh kedua untuk menekankan bagaimana mengubah RND pada set ukuran tidak memengaruhi mereka. Misalkan , yaitu standar PDF normal ditambah jika inputnya rasional, dan biarkan menjadi RV dengan kerapatan ini. Ini berarti
jadi sebenarnya masih merupakan RV Gaussian standar. Itu tidak mempengaruhi distribusi dengan cara apa pun untuk mengubah pada karena itu adalah satuan ukuran wrt0f(x)=φ(x)+1Q(x)1X
P(X∈A)=∫A(φ+1Q)dλ
=∫Aφdλ+λ(Q)=∫Aφdλ
XXQ0λ .
Sebagai contoh terakhir, anggaplah dan dan biarkan dan menjadi distribusinya masing-masing. Ingat bahwa pmf adalah RND sehubungan dengan ukuran penghitungan , dan karena memiliki properti yang , ternyata
X∼Pois(η)Y∼Bin(n,p)PXPYccc(A)=0⟺A=∅
dPYdPX=dPY/dcdPX/dc=fYfX
jadi kita dapat menghitung
PY(A)=∫AdPY
=∫AdPYdPXdPX=∫AdPYdPXdPXdcdc
=∑y∈AdPYdPX(y)dPXdc(y)=∑y∈AfY(y)fX(y)fX(y)=∑y∈AfY(y).
Jadi karena untuk semua dalam dukungan , kita dapat mengubah skala integrasi sehubungan dengan distribusi Poisson ke dalam integrasi sehubungan dengan distribusi binomial, meskipun karena semuanya diskrit ternyata tampak seperti sepele hasil.P(X=n)>0nY
Saya menjawab pertanyaan Anda yang lebih umum tetapi tidak menyentuh divergensi KL. Bagi saya, setidaknya, saya menemukan perbedaan KL jauh lebih mudah untuk ditafsirkan dalam hal pengujian hipotesis seperti jawaban @ kjetil b halvorsen di sini . Jika dan terdapat ukuran yang mendominasi keduanya maka gunakan kita dapat memulihkan formulir dengan kepadatan, jadi bagi saya saya menemukan itu lebih mudah.P≪QμdPdQ=dP/dμdQ/dμ:=p/q