Apakah mungkin untuk menerapkan divergensi KL antara distribusi diskrit dan kontinu?

12

Saya bukan ahli matematika. Saya telah mencari di internet tentang KL Divergence. Apa yang saya pelajari adalah divergensi KL mengukur informasi yang hilang ketika kami memperkirakan distribusi model sehubungan dengan distribusi input. Saya telah melihat ini di antara dua distribusi kontinu atau diskrit. Bisakah kita melakukannya antara terus menerus dan terpisah atau sebaliknya?

prakash
sumber

Jawaban:

4

Tidak: Divergensi KL hanya didefinisikan pada distribusi di atas ruang umum. Ia bertanya tentang kepadatan probabilitas suatu titik bawah dua distribusi yang berbeda, p ( x ) dan q ( x ) . Jika p adalah distribusi pada R 3 dan q distribusi pada Z , maka q ( x ) tidak masuk akal untuk poin p R 3 dan p ( z ) tidak masuk akal untuk poin z Zxp(x)q(x)pR3qZq(x)pR3p(z)zZ. Faktanya, kita bahkan tidak dapat melakukannya untuk dua distribusi kontinu pada ruang berdimensi berbeda (atau diskrit, atau kasus di mana ruang probabilitas yang mendasari tidak cocok).

Jika Anda memiliki kasus tertentu dalam benak Anda, mungkin saja muncul beberapa ketidaksamaan antara distribusi. Sebagai contoh, masuk akal untuk menyandikan distribusi kontinu di bawah kode untuk satu diskrit (jelas dengan informasi yang hilang), misalnya dengan membulatkan ke titik terdekat dalam kasus diskrit.

Dougal
sumber
Perhatikan bahwa perbedaan KL antara distribusi diskrit dan benar-benar kontinu didefinisikan dengan baik.
Olivier
@ Olivier Definisi yang biasa membutuhkan ukuran yang umum, bukan?
Dougal
1
Anda benar ketika P dan Q didefinisikan pada ruang yang berbeda. Tetapi pada ruang terukur yang umum, ukuran seperti itu selalu ada (ambil P + Q misalnya), dan divergensi KL tidak tergantung pada pilihan tertentu dari ukuran yang mendominasi.
Olivier
8

Ya, perbedaan KL antara variabel acak kontinu dan diskrit didefinisikan dengan baik. Jika dan Q adalah distribusi pada beberapa ruang X , maka P dan Q memiliki kepadatan f , g sehubungan dengan μ = P + Q dan D K L ( P , Q ) = X f log fPQXPQfgμ=P+Q

DKL(P,Q)=Xflogfgdμ.

X=[0,1]PQ=δ00f(x)=11x=0g(x)=1x=0

DKL(P,Q)=.
Olivier
sumber
Xflogfgdμ
Ubah teorema ukuran.
Olivier
1

Tidak secara umum. Perbedaan KL adalah

DKL(P || Q)=Xlog(dPdQ)dP

PQPQσdPdQ

σ

jtobin
sumber