Mengapa divergensi KL non-negatif?
Dari perspektif teori informasi, saya memiliki pemahaman yang intuitif:
Katakanlah ada dua ansambel dan yang terdiri dari himpunan elemen yang sama dengan label . dan adalah distribusi probabilitas yang berbeda atas masing-masing ensemble dan
Dari perspektif teori informasi, adalah sedikitnya jumlah bit yang diperlukan untuk merekam elemen x untuk ensemble A . Sehingga harapan Σ x ∈ e n s e m b l e - p ( x ) ln ( p ( x ) ) dapat diartikan sebagai setidaknya berapa banyak bit yang kita butuhkan untuk merekam elemen di A rata-rata.
Karena rumus ini menempatkan batas bawah pada bit yang kita butuhkan rata-rata, sehingga untuk ansambel yang berbeda yang menghasilkan distribusi probabilitas q yang berbeda ( x ) , batasan yang diberikannya untuk setiap elemen x pasti tidak akan menggigit yang diberikan oleh p ( x ) , yang berarti mengambil ekspektasi, ∑ x ∈ e n s e m b l e - p ( x ) ln ( q ( x ) )
Saya tidak menaruh≥ disini karenap(x)danq(x)berbeda.
Ini adalah pemahaman intuitif saya, apakah ada cara yang murni matematis untuk membuktikan perbedaan KL adalah non-negatif? Masalahnya dapat dinyatakan sebagai:
Diberikan dan q ( x ) keduanya positif atas garis nyata, dan ∫ + ∞ - ∞ p ( x ) d x = 1 , ∫ + ∞ - ∞ q ( x ) d x = 1 . Buktikan ∫ + ∞ - ∞ p ( x ) ln p ( x ) adalah non-negatif.
Bagaimana ini bisa dibuktikan? Atau dapatkah ini dibuktikan tanpa syarat tambahan?
sumber
Jawaban:
Bukti 1:
Untuk ketidaksetaraan (a) kami menggunakandalam ketimpangan dijelaskan di awal.
Alternatively you can start with Gibbs' inequality which states:
Then if we bring the left term to the right we get:
The reason I am not including this as a separate proof is because if you were to ask me to prove Gibbs' inequality, I would have to start from the non-negativity of KL divergence and do the same proof from the top.
Proof 2: We use the Log sum inequality:
Then we can show thatDKL(p||q)≥0 :
where we have used the Log sum inequality at (b).
Proof 3:
(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)
where at (c) we have used Jensen's inequality and the fact thatlog is a concave function.
sumber