Lihatlah foto ini:
Jika kita mengambil sampel dari kepadatan merah maka beberapa nilai diharapkan kurang dari 0,25 sedangkan tidak mungkin untuk menghasilkan sampel seperti itu dari distribusi biru. Akibatnya, jarak Kullback-Leibler dari kepadatan merah ke densitas biru adalah tak terbatas. Namun, dua kurva tidak begitu berbeda, dalam beberapa "pengertian alami".
Inilah pertanyaan saya: Apakah ada adaptasi dari jarak Kullback-Leibler yang akan memungkinkan jarak yang terbatas antara kedua kurva ini?
kullback-leibler
ocram
sumber
sumber
Jawaban:
Anda mungkin melihat Bab 3 dari Devroye, Gyorfi, dan Lugosi, A Probabilistic Teori Pengenalan Pola , Springer, 1996. Lihat, khususnya, pada bagianf -divergences.
-Diversgences dapat dipandang sebagai generalisasi dari Kullback - Leibler (atau, sebagai alternatif, KL dapat dilihat sebagai kasus khusus darif -Divergence).f
Bentuk umum adalah
di mana adalah ukuran yang mendominasi ukuran yang terkait dengan p dan q dan f ( ⋅ ) adalah fungsi cembung yang memuaskan f ( 1 ) = 0 . (Jika p ( x ) dan q ( x ) adalah kepadatan sehubungan dengan Lebesgue mengukur, hanya mengganti notasi d x untuk λ ( d x ) dan Anda baik sedang pergi.)λ p q f(⋅) f(1)=0 p(x) q(x) dx λ(dx)
Kami memulihkan KL dengan mengambil . Kita bisa mendapatkan perbedaan Hellinger melalui f ( x ) = ( 1 - √f(x)=xlogx dan kami mendapatkanvariasi totalataujarakL1dengan mengambilf(x)= 1f(x)=(1−x−−√)2 L1 . Yang terakhir memberif(x)=12|x−1|
Perhatikan bahwa yang terakhir ini setidaknya memberi Anda jawaban yang terbatas.
Dalam buku kecil lain yang berjudul Density Estimation: The ViewL1 , Devroye sangat mendukung penggunaan jarak yang belakangan ini karena banyaknya sifat invarian yang bagus (antara lain). Buku yang terakhir ini mungkin sedikit lebih sulit untuk dipahami daripada yang sebelumnya dan, seperti judulnya, sedikit lebih khusus.
Tambahan : Melalui pertanyaan ini , saya menjadi sadar bahwa tampaknya bahwa ukuran yang diusulkan @Dier adalah (hingga konstanta) yang dikenal sebagai Jensen-Shannon Divergence. Jika Anda mengikuti tautan ke jawaban yang disediakan dalam pertanyaan itu, Anda akan melihat bahwa ternyata akar kuadrat dari jumlah ini sebenarnya adalah metrik dan sebelumnya diakui dalam literatur sebagai kasus khusus dari -divergence . Saya merasa menarik bahwa kita secara kolektif telah "menemukan kembali" roda (agak cepat) melalui diskusi tentang pertanyaan ini. Interpretasi yang saya berikan pada komentar di bawah ini @ tanggapan Didier juga sebelumnya diakui. Di sekeliling, agak rapi, sebenarnya.f
sumber
Divergensi Kullback-Leibler dari P sehubungan dengan Q tidak terbatas ketika P tidak sepenuhnya kontinu sehubungan dengan Q , yaitu, ketika ada himpunan terukur Aκ(P|Q) P Q P Q A sehingga dan P ( A ) ≠ 0 . Selanjutnya perbedaan KL tidak simetris, dalam arti bahwa secara umum κ ( P ∣ Q ) ≠ κ ( Q ∣Q(A)=0 P(A)≠0 κ(P∣Q)≠κ(Q∣P) . Ingat bahwa
Jalan keluar dari kedua kelemahan ini, masih berdasarkan pada KL divergence, adalah dengan memperkenalkan titik tengah
R=1
Formulasi yang setara adalah
Tambahan 1 Pengenalan titik tengah dan Q tidak sewenang-wenang dalam arti bahwa η ( P , Q ) = min [ κ ( P ∣ ⋅ ) + κ ( Q ∣ ⋅ ) ] , di mana minimum berada di atas himpunan langkah-langkah probabilitas.P Q
Addendum 2 @ cardinal menyatakan bahwa juga merupakan f- divergence, untuk fungsi cembung f ( x ) = x log ( x ) - ( 1 + xη f
sumber
Sulit untuk menggambarkan ini sebagai "adaptasi" dari jarak KL, tetapi memenuhi persyaratan lain untuk menjadi "alami" dan terbatas.
sumber
Yes there does, Bernardo and Reuda defined something called the "intrinsic discrepancy" which for all purposes is a "symmetrised" version of the KL-divergence. Taking the KL divergence fromP to Q to be κ(P∣Q) The intrinsic discrepancy is given by:
Searching intrinsic discrepancy (or bayesian reference criterion) will give you some articles on this measure.
In your case, you would just take the KL-divergence which is finite.
Another alternative measure to KL is Hellinger distance
EDIT: clarification, some comments raised suggested that the intrinsic discrepancy will not be finite when one density 0 when the other is not. This is not true if the operation of evaluating the zero density is carried out as a limitQ→0 or P→0 . The limit is well defined, and it is equal to 0 for one of the KL divergences, while the other one will diverge. To see this note:
Taking limit asP→0 over a region of the integral, the second integral diverges, and the first integral converges to 0 over this region (assuming the conditions are such that one can interchange limits and integration). This is because limz→0zlog(z)=0 . Because of the symmetry in P and Q the result also holds for Q .
sumber