Berapa nilai maksimum divergensi Kullback-Leibler (KL)

14

Saya akan menggunakan KL divergence dalam kode python saya dan saya mendapatkan tutorial ini .

Pada tutorial itu, untuk mengimplementasikan KL divergence cukup sederhana.

kl = (model * np.log(model/actual)).sum()

Seperti yang saya pahami, distribusi probabilitas modeldan actualharus <= 1.

Pertanyaan saya adalah, apa nilai maksimum k / terikat maksimum? Saya perlu tahu nilai maksimum yang mungkin dari jarak kl untuk batas maksimum dalam kode saya.

machine-learning distance kullback-leibler pengguna46543
sumber

Ini adalah duplikat dari stats.stackexchange.com/q/333877/103153

Lerner Zhang

16

Atau bahkan dengan dukungan yang sama, ketika satu distribusi memiliki ekor yang jauh lebih gemuk dari yang lainnya. Ambil

K L (P | | Q) = \int p (x) log (p ( x ) q ( x )) d x

$KL(P\vert\vert Q) = \int p(x)\log\left(\frac{p(x)}{q(x)}\right) \,\text{d}x$ saat

p (x) = 1 π 1 1 + x 2            Cauchy density q (x) = 1 2 π - - \sqrt exp {- x 2 / 2}                      Normal density

$p(x)=\overbrace{\frac{1}{\pi}\,\frac{1}{1+x^2}}^\text{Cauchy density}\qquad q(x)=\overbrace{\frac{1}{\sqrt{2\pi}}\,\exp\{-x^2/2\}}^\text{Normal density}$ maka

K L (P | | Q) = \int 1 π 1 1 + x 2 log p (x) d x + \int 1 π 1 1 + x 2 [log (2 π) / 2 + x 2 / 2] d x

$KL(P\vert\vert Q) = \int \frac{1}{\pi}\,\frac{1}{1+x^2} \log p(x) \,\text{d}x + \int \frac{1}{\pi}\,\frac{1}{1+x^2} [\log(2\pi)/2+x^2/2]\,\text{d}x$ dan

\int 1 π 1 1 + x 2 x 2 / 2 d x = + \infty

$\int \frac{1}{\pi}\,\frac{1}{1+x^2} x^2/2\,\text{d}x=+\infty$ Ada jarak lain yang tetap dibatasi seperti

yang $L¹$ jarak, setara dengan total jarak variasi,
jarak Wasserstein
jarak Hellinger

Xi'an
sumber

1

Komentar yang sangat bagus @ Xi'an

Carlos Campos

Terima kasih @ Xi'an apakah itu berarti, bahkan jumlah semua sampah untuk kedua distribusi adalah = 1, kl divergence tidak memiliki batas maksimum? apakah Anda memiliki fungsi jarak opsi lain untuk dua distribusi probabilitas yang telah menetapkan batas maksimum / batas statis?

user46543

Apakah P benar-benar berkelanjutan sehubungan dengan Q dalam kasus ini?

Sangwoong Yoon

Dalam hal ini"? KL tidak didefinisikan sebagai untuk distribusi yang tidak benar-benar kontinu antara satu sama lain, saya percaya.

Xi'an

12

Untuk distribusi yang tidak memiliki dukungan yang sama, perbedaan KL tidak dibatasi. Lihatlah definisi:

K L (P | | Q) = \int \infty - \infty p (x) ln (p ( x ) q ( x )) d x

$KL(P\vert\vert Q) = \int_{-\infty}^{\infty} p(x)\ln\left(\frac{p(x)}{q(x)}\right) dx$

jika P dan Q tidak memiliki dukungan yang sama, ada beberapa titik mana dan , membuat KL menjadi tak terhingga. Ini juga berlaku untuk distribusi diskrit, yang merupakan kasus Anda. $x'$ $p(x') \neq 0$ $q(x') = 0$

Sunting: Mungkin pilihan yang lebih baik untuk mengukur divergensi antara distribusi probabilitas adalah apa yang disebut jarak Wasserstein yang merupakan metrik dan memiliki sifat yang lebih baik daripada divergensi KL. Ini telah menjadi sangat populer karena penerapannya dalam pembelajaran mendalam (lihat jaringan WGAN)

Carlos Campos
sumber

Terima kasih @ carlos-campos distribusi saya baik model aktual dan memiliki kondisi yang sama yang merupakan jumlah semua sampah = 1. Apakah itu berarti divergensi Kl saya masih belum memiliki batas maksimum? Saya akan melihat jarak

wassertein

apakah jarak Wasserstein atau Bumi memiliki batas maksimum eksplisit? karena saya membutuhkannya.

user46543

@ user46543 Jarak Wasserstein bisa setinggi

∞ $\infty$

Mark L. Stone

Hai @ MarkL. Batu sehingga tidak ada fungsi jarak untuk menghitung jarak antara dua distribusi probabilitas yang memiliki batas maksimum statis? mis. sementara dua distribusi probabilitas memiliki jumlah 1 dan batas maksimum jaraknya adalah 1. Apakah saya benar?

user46543

3

Untuk menambah jawaban yang sangat baik oleh Carlos dan Xi'an , juga menarik untuk dicatat bahwa kondisi yang cukup untuk divergensi KL menjadi terbatas adalah untuk kedua variabel acak memiliki dukungan kompak yang sama, dan untuk kepadatan referensi yang akan dibatasi. . Hasil ini juga menetapkan batas implisit untuk maksimum divergensi KL (lihat teorema dan bukti di bawah).

Teorema: Jika kepadatan dan memiliki dukungan kompak dan kepadatan terikat pada dukungan itu (yaitu, memiliki batas atas terbatas) maka . $p$ $q$ $\mathscr{X}$ $p$ $KL(P||Q) < \infty$

Bukti: Karena memiliki dukungan kompak ini berarti ada beberapa nilai positif maksimum: $q$ $\mathscr{X}$

q - \equiv inf x \in X q (x) > 0.

$\underline{q} \equiv \inf_{x \in \mathscr{X}} q(x) > 0.$

Demikian pula, karena memiliki dukungan kompak ini berarti ada beberapa nilai supremum positif: $p$ $\mathscr{X}$

p ¯ \equiv sup x \in X p (x) > 0.

$\bar{p} \equiv \sup_{x \in \mathscr{X}} p(x) > 0.$

Selain itu, karena ini adalah kepadatan pada dukungan yang sama, dan yang terakhir dibatasi, kami memiliki . Ini berarti: $0 < \underline{q} \leqslant \bar{p} < \infty$

sup x \in X ln (p ( x ) q ( x )) ⩽ ln (p ¯) - ln (q -) .

$\sup_{x \in \mathscr{X}} \ln \Bigg( \frac{p(x)}{q(x)} \Bigg) \leqslant \ln ( \bar{p}) - \ln(\underline{q}).$

Sekarang, membiarkan menjadi batas atas yang terakhir, kita jelas memiliki sehingga: $\underline{L} \equiv \ln ( \bar{p}) - \ln(\underline{q})$ $0 \leqslant \underline{L} < \infty$

K L (P | | Q) = \int X ln (p ( x ) q ( x )) p (x) d x ⩽ sup x \in X ln (p ( x ) q ( x )) \int X p (x) d x ⩽ (ln (p ¯) - ln (q -)) \int X p (x) d x = L - - < \infty .

$\begin{equation} \begin{aligned} KL(P||Q) &= \int \limits_{\mathscr{X}} \ln \Bigg( \frac{p(x)}{q(x)} \Bigg) p(x) dx \\[6pt] &\leqslant \sup_{x \in \mathscr{X}} \ln \Bigg( \frac{p(x)}{q(x)} \Bigg) \int \limits_{\mathscr{X}} p(x) dx \\[6pt] &\leqslant (\ln ( \bar{p}) - \ln(\underline{q})) \int \limits_{\mathscr{X}} p(x) dx \\[6pt] &= \underline{L} < \infty. \\[6pt] \end{aligned} \end{equation}$

Ini menetapkan batas atas yang diperlukan, yang membuktikan teorema. $\blacksquare$

Pasang kembali Monica
sumber

Hasilnya benar tetapi kendala berat: kerapatan Beta

tidak menikmati dukungan padat ketika

. B(α,β) ${\cal B}(\alpha,\beta)$

max(α,β)>1 $\max(\alpha,\beta)>1$

Xi'an

That's true: it is only a sufficient condition after all. Weaker sufficient conditions are welcome!

Reinstate Monica

Berapa nilai maksimum divergensi Kullback-Leibler (KL)

Jawaban: