Mari kita perhatikan dua distribusi probabilitas berikut
P Q
0.01 0.002
0.02 0.004
0.03 0.006
0.04 0.008
0.05 0.01
0.06 0.012
0.07 0.014
0.08 0.016
0.64 0.928
Saya telah menghitung divergensi Kullback-Leibler yang sama dengan , saya ingin tahu secara umum apa yang ditunjukkan angka ini kepada saya? Secara umum, divergensi Kullback-Leibler menunjukkan kepada saya seberapa jauh distribusi probabilitas dari yang lain, kan? Ini mirip dengan terminologi entropi, tetapi dalam hal jumlah, apa artinya? Jika saya memiliki hasil 0,49, dapatkah saya mengatakan bahwa sekitar satu distribusi jauh dari yang lain sebesar 50%?
interpretation
information-theory
kullback-leibler
dato datuashvili
sumber
sumber
Jawaban:
Divergensi Kullback-Leibler bukanlah metrik yang tepat, karena tidak simetris dan juga, tidak memenuhi ketidaksetaraan segitiga. Jadi "peran" yang dimainkan oleh dua distribusi berbeda, dan penting untuk mendistribusikan peran ini sesuai dengan fenomena dunia nyata yang diteliti.
Ketika kami menulis (OP telah menghitung ekspresi menggunakan basis-2 logaritma)
kami menganggap distribusi sebagai "target distribusi" (biasanya dianggap sebagai distribusi yang sebenarnya), yang kami perkirakan dengan menggunakan distribusi Q.P Q
Sekarang,
di mana adalah entropi Shannon dari distribusi P dan - E P ( ln ( Q ) ) disebut "lintas-entropi P dan Q " -juga tidak simetris.H(P) P −EP(ln(Q)) P Q
Penulisan
(di sini juga, urutan di mana kita menulis distribusi dalam ekspresi hal-hal lintas-entropi, karena juga tidak simetris), memungkinkan kita untuk melihat bahwa KL-Divergence mencerminkan peningkatan entropi selama entropi tidak dapat dihindari distribusi .P
Jadi, tidak , KL-divergensi lebih baik tidak diartikan sebagai "ukuran jarak" antara distribusi, tetapi sebagai ukuran peningkatan entropi karena penggunaan perkiraan untuk distribusi yang benar daripada distribusi yang benar itu sendiri .
Jadi kita berada di tanah Teori Informasi. Untuk mendengarnya dari master (Cover & Thomas) "
Kata orang bijak yang sama
Tetapi pendekatan yang terakhir ini berguna terutama ketika seseorang mencoba untuk meminimalkan KL-divergence untuk mengoptimalkan beberapa prosedur estimasi. Untuk interpretasi nilai numeriknya sendiri , itu tidak berguna, dan orang harus memilih pendekatan "peningkatan entropi".
Untuk distribusi khusus dari pertanyaan (selalu menggunakan basis-2 logaritma)
sumber
KL Divergence mengukur kehilangan informasi yang diperlukan untuk merepresentasikan simbol dari P menggunakan simbol dari Q. Jika Anda mendapat nilai 0,49 itu berarti bahwa rata-rata Anda dapat menyandikan dua simbol dari P dengan dua simbol yang sesuai dari Q ditambah sedikit informasi tambahan .
sumber
sumber