Analisis perbedaan Kullback-Leibler

18

Mari kita perhatikan dua distribusi probabilitas berikut

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

Saya telah menghitung divergensi Kullback-Leibler yang sama dengan , saya ingin tahu secara umum apa yang ditunjukkan angka ini kepada saya? Secara umum, divergensi Kullback-Leibler menunjukkan kepada saya seberapa jauh distribusi probabilitas dari yang lain, kan? Ini mirip dengan terminologi entropi, tetapi dalam hal jumlah, apa artinya? Jika saya memiliki hasil 0,49, dapatkah saya mengatakan bahwa sekitar satu distribusi jauh dari yang lain sebesar 50%?0.492820258

dato datuashvili
sumber
Lihat diskusi di sini yang mungkin bisa membantu.
Glen_b -Reinstate Monica
Apakah Anda membaca artikel wikipedia?
Neil G

Jawaban:

42

Divergensi Kullback-Leibler bukanlah metrik yang tepat, karena tidak simetris dan juga, tidak memenuhi ketidaksetaraan segitiga. Jadi "peran" yang dimainkan oleh dua distribusi berbeda, dan penting untuk mendistribusikan peran ini sesuai dengan fenomena dunia nyata yang diteliti.

Ketika kami menulis (OP telah menghitung ekspresi menggunakan basis-2 logaritma)

K(P||Q)=ilog2(pi/qi)pi

kami menganggap distribusi sebagai "target distribusi" (biasanya dianggap sebagai distribusi yang sebenarnya), yang kami perkirakan dengan menggunakan distribusi Q.PQ

Sekarang,

sayacatatan2(halsaya/qsaya)halsaya=sayacatatan2(halsaya)halsaya-sayacatatan2(qsaya)halsaya=-H(P)-EP(dalam(Q))

di mana adalah entropi Shannon dari distribusi P dan - E P ( ln ( Q ) ) disebut "lintas-entropi P dan Q " -juga tidak simetris.H(P)PEP(ln(Q))PQ

Penulisan

K(P||Q)=H(P,Q)H(P)

(di sini juga, urutan di mana kita menulis distribusi dalam ekspresi hal-hal lintas-entropi, karena juga tidak simetris), memungkinkan kita untuk melihat bahwa KL-Divergence mencerminkan peningkatan entropi selama entropi tidak dapat dihindari distribusi .P

Jadi, tidak , KL-divergensi lebih baik tidak diartikan sebagai "ukuran jarak" antara distribusi, tetapi sebagai ukuran peningkatan entropi karena penggunaan perkiraan untuk distribusi yang benar daripada distribusi yang benar itu sendiri .

Jadi kita berada di tanah Teori Informasi. Untuk mendengarnya dari master (Cover & Thomas) "

... jika kita mengetahui distribusi dari variabel acak, kita dapat membuat kode dengan panjang deskripsi rata-rata H ( P ) . Sebaliknya, jika kita menggunakan kode untuk distribusi Q , kita akan membutuhkan bit H ( P ) + K ( P | | Q ) rata-rata untuk menggambarkan variabel acak.PH(P)QH(P)+K(P||Q)

Kata orang bijak yang sama

... itu bukan jarak sebenarnya antara distribusi karena tidak simetris dan tidak memuaskan ketidaksetaraan segitiga. Meskipun demikian, sering kali berguna untuk menganggap entropi relatif sebagai "jarak" antara distribusi.

Tetapi pendekatan yang terakhir ini berguna terutama ketika seseorang mencoba untuk meminimalkan KL-divergence untuk mengoptimalkan beberapa prosedur estimasi. Untuk interpretasi nilai numeriknya sendiri , itu tidak berguna, dan orang harus memilih pendekatan "peningkatan entropi".

Untuk distribusi khusus dari pertanyaan (selalu menggunakan basis-2 logaritma)

K(P||Q)=0.49282,H(P)=1.9486

QP

Alecos Papadopoulos
sumber
Jawaban yang sangat berguna dan informatif.
MadHatter
1

KL Divergence mengukur kehilangan informasi yang diperlukan untuk merepresentasikan simbol dari P menggunakan simbol dari Q. Jika Anda mendapat nilai 0,49 itu berarti bahwa rata-rata Anda dapat menyandikan dua simbol dari P dengan dua simbol yang sesuai dari Q ditambah sedikit informasi tambahan .

Harun
sumber