Adaptasi jarak Kullback-Leibler?

28

Lihatlah foto ini: masukkan deskripsi gambar di sini

Jika kita mengambil sampel dari kepadatan merah maka beberapa nilai diharapkan kurang dari 0,25 sedangkan tidak mungkin untuk menghasilkan sampel seperti itu dari distribusi biru. Akibatnya, jarak Kullback-Leibler dari kepadatan merah ke densitas biru adalah tak terbatas. Namun, dua kurva tidak begitu berbeda, dalam beberapa "pengertian alami".

Inilah pertanyaan saya: Apakah ada adaptasi dari jarak Kullback-Leibler yang akan memungkinkan jarak yang terbatas antara kedua kurva ini?

ocram
sumber
1
Dalam "pengertian alami" apakah kurva-kurva ini "tidak terlalu berbeda"? Bagaimana kedekatan intuitif ini terkait dengan setiap properti statistik? (Saya dapat memikirkan beberapa jawaban tetapi saya bertanya-tanya apa yang ada dalam pikiran Anda.)
Whuber
1
Yah ... mereka cukup dekat satu sama lain dalam arti bahwa keduanya didefinisikan pada nilai-nilai positif; keduanya meningkat dan kemudian menurun; keduanya sebenarnya memiliki harapan yang sama; dan jarak Kullback Leibler "kecil" jika kita membatasi sebagian sumbu x ... Tetapi untuk menghubungkan gagasan intuitif ini dengan properti statistik apa pun, saya akan memerlukan beberapa definisi yang akurat untuk fitur-fitur ini ...
ocram

Jawaban:

18

Anda mungkin melihat Bab 3 dari Devroye, Gyorfi, dan Lugosi, A Probabilistic Teori Pengenalan Pola , Springer, 1996. Lihat, khususnya, pada bagian f -divergences.

-Diversgences dapat dipandang sebagai generalisasi dari Kullback - Leibler (atau, sebagai alternatif, KL dapat dilihat sebagai kasus khusus darif -Divergence).f

Bentuk umum adalah

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

di mana adalah ukuran yang mendominasi ukuran yang terkait dengan p dan q dan f ( ) adalah fungsi cembung yang memuaskan f ( 1 ) = 0 . (Jika p ( x ) dan q ( x ) adalah kepadatan sehubungan dengan Lebesgue mengukur, hanya mengganti notasi d x untuk λ ( d x ) dan Anda baik sedang pergi.)λpqf()f(1)=0p(x)q(x)dxλ(dx)

Kami memulihkan KL dengan mengambil . Kita bisa mendapatkan perbedaan Hellinger melalui f ( x ) = ( 1 - f(x)=xlogxdan kami mendapatkanvariasi totalataujarakL1dengan mengambilf(x)= 1f(x)=(1x)2L1. Yang terakhir memberif(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

Perhatikan bahwa yang terakhir ini setidaknya memberi Anda jawaban yang terbatas.

Dalam buku kecil lain yang berjudul Density Estimation: The ViewL1 , Devroye sangat mendukung penggunaan jarak yang belakangan ini karena banyaknya sifat invarian yang bagus (antara lain). Buku yang terakhir ini mungkin sedikit lebih sulit untuk dipahami daripada yang sebelumnya dan, seperti judulnya, sedikit lebih khusus.


Tambahan : Melalui pertanyaan ini , saya menjadi sadar bahwa tampaknya bahwa ukuran yang diusulkan @Dier adalah (hingga konstanta) yang dikenal sebagai Jensen-Shannon Divergence. Jika Anda mengikuti tautan ke jawaban yang disediakan dalam pertanyaan itu, Anda akan melihat bahwa ternyata akar kuadrat dari jumlah ini sebenarnya adalah metrik dan sebelumnya diakui dalam literatur sebagai kasus khusus dari -divergence . Saya merasa menarik bahwa kita secara kolektif telah "menemukan kembali" roda (agak cepat) melalui diskusi tentang pertanyaan ini. Interpretasi yang saya berikan pada komentar di bawah ini @ tanggapan Didier juga sebelumnya diakui. Di sekeliling, agak rapi, sebenarnya.f

kardinal
sumber
1
Sangat bagus! Saya akan mencoba menemukan "Teori Probabilistik Pengenalan Pola" dan untuk memahami bab 3!
ocram
1
jawaban yang baik, catatan yang paling sering didefinisikan cara lain yang membuatnya setengah L 1 jarak. DTVL1
robin girard
1
@robin, terima kasih atas komentar Anda. Ya, saya menyadari ini. Saya hanya mencoba untuk menghindari konstanta asing yang berantakan dalam eksposisi. Tapi, sebenarnya, Anda benar. Saya telah memperbaruinya sesuai.
kardinal
3
Adendum Anda adalah informasi yang paling berguna yang saya temukan di stats.SE, sejauh ini. Semua terima kasih saya yang paling hangat untuk ini. Saya hanya mereproduksi di sini referensi yang Anda berikan: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/... Endres dan Schindelin, Metrik baru untuk distribusi probabilitas, IEEE Trans. pada Info. Engkau. , vol. 49, tidak. 3, Jul. 2003, hlm. 1858-1860.
Apakah
1
@Dier, ya, itu lebih dari kecelakaan yang menyenangkan. Tidak ada yang menanggapi pertanyaan lain, jadi saya memutuskan untuk mencoba mencari tahu apa yang menjadi Perbedaan Jensen-Shannon. Setelah saya menemukan definisi, tampaknya masuk akal untuk menghubungkan dua pertanyaan melalui lampiran saya. Saya senang Anda menemukannya berguna. Salam.
kardinal
19

Divergensi Kullback-Leibler dari P sehubungan dengan Q tidak terbatas ketika P tidak sepenuhnya kontinu sehubungan dengan Q , yaitu, ketika ada himpunan terukur Aκ(P|Q)PQPQA sehingga dan P ( A ) 0 . Selanjutnya perbedaan KL tidak simetris, dalam arti bahwa secara umum κ ( P Q ) κ ( Q Q(A)=0P(A)0κ(PQ)κ(QP) . Ingat bahwa Jalan keluar dari kedua kelemahan ini, masih berdasarkan pada KL divergence, adalah dengan memperkenalkan titik tengah R=1

κ(PQ)=Plog(PQ).
JadiRadalah ukuran probabilitas, danPdanQselalu benar-benar terus menerus terhadapR. Oleh karena itu orang dapat mempertimbangkan "jarak" antaraPdanQ, masih didasarkan pada perbedaan KL tetapi menggunakanR, didefinisikan sebagai η(P,Q)=κ(PR)+κ(QR). Kemudianη(P
R=12(P+Q).
RPQRPQR
η(P,Q)=κ(PR)+κ(QR).
adalah tidak negatif dan terbatas untuk setiap P dan Q , η adalah simetris dalam arti bahwa η ( P , Q ) = η ( Q , P ) untuk setiap P dan Q , dan η ( P , Q ) = 0 iff P = Qη(P,Q)PQηη(P,Q)=η(Q,P)PQη(P,Q)=0P=Q .

Formulasi yang setara adalah

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

Tambahan 1 Pengenalan titik tengah dan Q tidak sewenang-wenang dalam arti bahwa η ( P , Q ) = min [ κ ( P ) + κ ( Q ) ] , di mana minimum berada di atas himpunan langkah-langkah probabilitas.PQ

η(P,Q)=min[κ(P)+κ(Q)],

Addendum 2 @ cardinal menyatakan bahwa juga merupakan f- divergence, untuk fungsi cembung f ( x ) = x log ( x ) - ( 1 + xηf

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).
Melakukan
sumber
2
@Marco, @Didier Piau, dapat dicatat bahwa saran @ Didier adalah kasus khusus lain dari -divergence di mana f ( x ) =f. f(x)=xlogx(1+x)log(1+x2)
kardinal
1
@Marco, @Didier Piau, formulasi alternatif yang memiliki sifat menggugah adalah dan sebagainya η ( P , Q ) = 2 ( Hη(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q)) mana μ ( x , y ) = x + yη(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q)) . Dengan kata lain,1μ(x,y)=x+y2adalah "perbedaan antara entropi ukuran rata-rata dan entropi rata-rata ukuran". 12η(P,Q)
kardinal
3
Bukankah ini hanya perbedaan Jensen-Shannon?
Memming
Tampaknya .
Melakukan
"Di mana minimum melebihi seperangkat ukuran probabilitas." Saya suka karakterisasi divergensi Jensen-Shannon ini. Apakah ada buktinya di suatu tempat?
user76284
10

PQPQ adalah fungsi distribusi empiris dari dataset.

Sulit untuk menggambarkan ini sebagai "adaptasi" dari jarak KL, tetapi memenuhi persyaratan lain untuk menjadi "alami" dan terbatas.

R+[0,C]C

whuber
sumber
1
Terima kasih atas saran Anda tentang jarak Kolmogorov. Bisakah Anda membuat komentar Anda tentang transformasi monoton sedikit lebih eksplisit? Thx
ocram
1
arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0
whuber
1
Ya, itulah yang saya maksud :-) Saya tidak yakin apa yang harus diterapkan transformasi. Sekarang sudah jelas, thx
ocram
1
arctanπ/2arctanπ/2+
Apakah
@Didier Ya, divergensi KL yang ditransformasikan (ketika simetrize, seperti yang Anda gambarkan) mungkin tidak memuaskan ketidaksetaraan segitiga dan karena itu tidak akan menjadi jarak, tetapi masih akan menentukan topologi (yang kemungkinan akan dapat metrizable). Dengan demikian Anda akan menyerah sedikit atau tidak sama sekali. Saya tetap agnostik tentang manfaat melakukan semua ini: menurut saya ini hanyalah cara untuk menyembunyikan kesulitan yang terkait dengan nilai tak terhingga dari perbedaan KL di tempat pertama.
whuber
2

Yes there does, Bernardo and Reuda defined something called the "intrinsic discrepancy" which for all purposes is a "symmetrised" version of the KL-divergence. Taking the KL divergence from P to Q to be κ(PQ) The intrinsic discrepancy is given by:

δ(P,Q)min[κ(PQ),κ(QP)]

Searching intrinsic discrepancy (or bayesian reference criterion) will give you some articles on this measure.

In your case, you would just take the KL-divergence which is finite.

Another alternative measure to KL is Hellinger distance

EDIT: clarification, some comments raised suggested that the intrinsic discrepancy will not be finite when one density 0 when the other is not. This is not true if the operation of evaluating the zero density is carried out as a limit Q0 or P0 . The limit is well defined, and it is equal to 0 for one of the KL divergences, while the other one will diverge. To see this note:

δ(P,Q)min[Plog(PQ),Qlog(QP)]

Taking limit as P0 over a region of the integral, the second integral diverges, and the first integral converges to 0 over this region (assuming the conditions are such that one can interchange limits and integration). This is because limz0zlog(z)=0. Because of the symmetry in P and Q the result also holds for Q.

probabilityislogic
sumber
1
Even the "intrinsic discrepancy" will be infinite when P is zero with positive probability for Q and vice versa, even if P and Q are otherwise identical.
whuber
1
Yes... I am afraid that the intrinsic discrepancy does not fulfil the requirement. But thank you for the suggestion. Any other suggestion would be appreciated.
ocram
1
It does fulfil the requirement, if you restrict the support of the blue density to be where it has strictly positive support, just as you have for the red one (>0)
probabilityislogic
3
@probabilityislogic: I do not unerstand your last remarks. First, let us give their proper names to the notions involved and say that P is absolutely continuous with respect to Q (denoted PQ) if, for every measurable A, Q(A)=0 implies P(A)=0. Now, notwithstanding your somewhat mysterious (to me) limit considerations, your δ(P,Q) is finite iff PQ or QP. .../...
Did
2
.../... A way out of the conundrum you seem to be dug into might be to introduce the mid-point measure P+Q. Since PP+Q and QP+Q, the quantity η(P,Q):=κ(P|P+Q)+κ(Q|P+Q) is always finite. Furthermore η(P,Q)=0 iff P=Q and η is symmetric. Hence η(P,Q) indeed measures a kind of "distance" between P and Q.
Did