Kullback-Leibler divergence TANPA teori informasi

23

Setelah banyak memukulkan Cross Validated, saya masih tidak merasa seperti saya lebih dekat untuk memahami perbedaan KL di luar bidang teori informasi. Agak aneh jika seseorang dengan latar belakang matematika lebih mudah memahami penjelasan teori informasi.

Untuk menguraikan pemahaman saya dari latar belakang teori informasi: Jika kita memiliki variabel acak dengan jumlah hasil yang terbatas, ada pengkodean optimal yang memungkinkan kita untuk mengkomunikasikan hasilnya dengan orang lain dengan rata-rata pesan terpendek (saya menemukan ini termudah untuk gambar dalam hal bit). Panjang pesan yang diharapkan yang perlu dikomunikasikan hasilnya diberikan oleh jika pengkodean optimal digunakan. Jika Anda menggunakan pengodean sub optimal, maka KL divergence memberi tahu kami rata-rata berapa lama lagi pesan kami.

αpαlog2(pα)

Saya suka penjelasan ini, karena secara intuitif berhubungan dengan asimetri divergensi KL. Jika kita memiliki dua sistem yang berbeda, yaitu dua koin yang dimuat berbeda, mereka akan memiliki penyandian optimal yang berbeda. Saya entah bagaimana secara naluriah merasa bahwa menggunakan pengkodean sistem kedua untuk yang pertama adalah "sama buruknya" dengan menggunakan pengkodean sistem pertama untuk yang kedua. Tanpa melalui proses berpikir tentang bagaimana saya meyakinkan diri sendiri, saya sekarang cukup senang bahwa memberi Anda ini "panjang pesan ekstra diharapkan", ketika menggunakan pengkodean untuk .

αpα(log2qαlog2pα)
qp

Namun, sebagian besar definisi divergensi KL, termasuk Wikipedia kemudian membuat pernyataan (menjaga ini dalam istilah diskrit sehingga dapat dibandingkan dengan interpretasi teori informasi yang bekerja jauh lebih baik dalam istilah diskrit sebagai bit diskrit) bahwa jika kita memiliki dua probabilitas diskrit distribusi, lalu KL memberikan beberapa metrik "betapa berbedanya mereka". Saya belum melihat penjelasan tunggal tentang bagaimana kedua konsep ini bahkan terkait. Saya sepertinya ingat dalam bukunya tentang inferensi, Dave Mackay membuat poin tentang bagaimana kompresi dan inferensi data pada dasarnya adalah hal yang sama, dan saya menduga pertanyaan saya benar-benar terkait dengan ini.

Terlepas dari apakah itu benar atau tidak, pertanyaan yang saya pikirkan adalah seputar masalah kesimpulan. (Keeping things discrete), jika kita memiliki dua sampel radioaktif, dan kita tahu bahwa salah satunya adalah bahan tertentu dengan radioaktivitas yang diketahui (ini adalah fisika yang meragukan tetapi mari kita berpura-pura bahwa alam semesta bekerja seperti itu) dan dengan demikian kita tahu distribusi "benar" klik radioaktif yang harus kita ukur harus poissonian dengan dikenal , apakah adil untuk membangun distribusi empiris untuk kedua sampel dan membandingkan divergensi KL-nya dengan distribusi yang diketahui dan mengatakan semakin rendah kemungkinan bahan itu?λ

Beranjak dari fisika yang meragukan, jika saya tahu dua sampel ditarik dari distribusi yang sama tetapi saya tahu mereka tidak dipilih secara acak, akan membandingkan divergensi KL mereka dengan yang dikenal, distribusi global memberi saya rasa "seberapa bias" sampel tersebut , relatif terhadap satu dan lainnya?

Dan akhirnya, jika jawaban untuk pertanyaan sebelumnya adalah ya, lalu mengapa? Apakah mungkin untuk memahami hal-hal ini dari sudut pandang statistik saja tanpa membuat (mungkin renggang) koneksi ke teori informasi?

gazza89
sumber
1
Lihat jawaban saya di sini: stats.stackexchange.com/questions/188903/… yang tidak merujuk pada teori informasi
kjetil b halvorsen
1
Apakah KL divergence tidak murni konsep teori informasi? Saya tahu itu memberikan informasi timbal balik antara Bayesian sebelum dan posterior atau sesuatu seperti itu, dan saya ingat pernah melihatnya sekali dalam konteks transformasi / konjugasi Fenchel (teori deviasi besar), tetapi bagaimanapun saya pikir itu adalah konsep teori informasi .
Chill2Macht

Jawaban:

23

Ada pendekatan statistik murni untuk perbedaan Kullback-Leibler: ambil sampel iid dari distribusi p ⋆ yang tidak diketahui dan pertimbangkan kecocokan potensial oleh keluarga distribusi, F = { p θX1,,Xnp Kemungkinan yang sesuai didefinisikan sebagai L ( θ | x 1 , , x n ) = n i = 1 p θ ( x i ) dan logaritma adalah ( θ | x 1 , , x n ) = n i = 1 log p θ ( x i )

F={pθ, θΘ}
L(θ|x1,,xn)=i=1npθ(xi)
(θ|x1,,xn)=i=1nlogpθ(xi)
Karena itu, yang merupakan bagian menarik dari perbedaan Kullback-Leibler antara p θ dan p H ( p θ | p ) def = log { p ( x ) / p θ ( x ) }
1n(θ|x1,,xn)E[logpθ(X)]=logpθ(x)p(x)dx
pθp bagian lainnya log { p ( x ) }
H(pθ|p)=deflog{p(x)/pθ(x)}p(x)dx
berada di sana untuk memiliki [dalam θ ]minimum H ( p θ | p ) sama dengan nol.
log{p(x)}p(x)dx
θH(pθ|p)

Sebuah buku yang menghubungkan divergensi, teori informasi dan inferensi statistik adalah estimasi parameter Optimal Rissanen , yang saya ulas di sini .

Xi'an
sumber
Adakah kemungkinan melihat contoh angka dari ini?
Paul Uszak
Ya maksud saya melihat beberapa angka aktual. Teori itu lucu tapi dunia terus berjalan dengan angka. Tidak ada contoh divergensi KL yang menggunakan angka aktual, jadi saya tertarik pada kesimpulan bahwa itu adalah teori tanpa aplikasi yang mungkin. OP membahas panjang pesan dalam bit dan kompresi data. Saya merujuk pada contoh apa pun yang memiliki sejumlah bit di dalamnya ...
Paul Uszak
2
@ PaulUszak: jika saya memberi tahu Anda bahwa jarak Kullaback-Leibler antara N (0,1) dan distribusi N (1,1) adalah 1/2, bagaimana ini membantu?
Xi'an
2
@ Xi'an: Harus ada hubungan antara angka 1/2 dan kekuatan tes rasio kemungkinan yang sesuai?
kjetil b halvorsen
7
+1 Re the comment thread: Pikiran boggles pada pemikiran bahwa konsep apa pun yang tidak dapat direduksi menjadi "jumlah bit" tidak berguna.
whuber
8

Berikut ini adalah interpretasi statistik dari perbedaan Kullback-Leibler, yang diambil secara longgar dari IJ Good ( Bobot bukti: Sebuah survei singkat , Bayesian Statistics 2, 1985).

Berat bukti.

x1,x2,,xnf0H1H2f0H1={f1}H2={f2}f0f1f2

x=(x1,,xn)H1H2

W(x)=logf1(x)f2(x).
PH0H1W
logP(H0|x)P(H1|x)=W(x)+logP(H0)P(H1).
W(x1,,xn)=W(x1)++W(xn).
W(x)xH1H2

xW(x)W(x)>2

Perbedaan Kullback-Leibler

f1f2xf1

KL(f1,f2)=Exf1W(x)=f1logf1f2.

xf1H1={f1}H2

Exf1W(x)0.
Olivier
sumber
1

Saya belum melihat penjelasan tunggal tentang bagaimana kedua konsep ini bahkan terkait.

Saya tidak tahu banyak tentang teori informasi, tetapi ini adalah bagaimana saya berpikir tentang hal itu: ketika saya mendengar seseorang teori informasi mengatakan "panjang pesan," otak saya mengatakan "kejutan." Kejutan adalah 1.) acak dan 2.) subyektif.

Xq(X)logq(X)

qXppEp[logp(X)]qpEp[logq(X)]

Alih-alih memikirkan "betapa berbedanya mereka", saya berpikir tentang "peningkatan kejutan yang diharapkan dari penggunaan distribusi yang salah." Ini semua dari properti logaritma.

Ep[log(p(X)q(X))]=Ep[logq(X)]Ep[logp(X)]0.

Edit

log(q(x))q

Xqx0log(0)=10

log

q(x)>1

XqX(x)Y=aX+bqx((yb)/a)|1/a|XlogqX(X)logqY(Y)

(XEX)2

Sunting 2: sepertinya saya bukan satu-satunya yang menganggap ini sebagai "kejutan." Dari sini :

yθ-2log{hal(yθ)} (Kullback dan Leibler, 1951; Burnham dan Anderson, 1998) dan dapat diartikan sebagai ukuran 'kejutan' (Good, 1956), penalti logaritmik (Bernardo, 1979) atau ketidakpastian.

Taylor
sumber
1
Can you elaborate on how log(q(x)) is a measure of "surprise"? This quantity alone seems meaningless, as it is not even invariant under linear transforms of the sample space (I assume q is a pdf).
Olivier
1
Let T be the transform T(X)=aX, a0. Since T is invertible, observing T(x) is, for me, the same as observing x: I can easily transform one into the other. Why should I be more surprised at observing T(x) than I am at observing x? (if logqT(X)(T(x))>logqX(x)) Invarian di bawah transformasi yang dapat dibalik diperlukan untuk menghindari kontradiksi ini.
Olivier
@ Olivier ya ini semua sudah dibahas dalam edit saya. Saya tidak melihat kontradiksi. Pertimbangkan varians, tempat Anda mengambil ekspektasi transformasi(X-E[X])2. Anda bisa menganggap kuantitas acak ini sebagai "ekstremeness." Tapi Anda tidak melihat saya mengeluh tentang kurangnya invarian
Taylor