Saya telah belajar tentang intuisi di balik KL Divergence karena seberapa banyak fungsi distribusi model berbeda dari distribusi teoritis / benar data. Sumber saya membaca selanjutnya mengatakan bahwa pemahaman intuitif 'jarak' antara dua distribusi ini sangat membantu, tetapi tidak harus diambil secara harfiah karena selama dua distribusi dan , KL Divergence tidak simetris di dan .
Saya tidak yakin bagaimana memahami pernyataan terakhir, atau inikah intuisi 'jarak' rusak?
Saya akan menghargai contoh sederhana, tetapi berwawasan luas.
Jawaban:
Jarak (metrik)D harus simetris, yaitu D(P,Q)=D(Q,P) . Tapi, dari definisi, KL tidak.
Contoh:Ω={A,B} , P(A)=0.2,P(B)=0.8 , Q(A)=Q(B)=0.5 .
Kita punya:
dan
sehingga dan oleh karena itu K L bukan (metrik) jarak.KL(P,Q)≠KL(Q,P) KL
sumber
Menambah jawaban luar biasa lainnya, jawaban dengan sudut pandang lain yang mungkin dapat menambahkan lebih banyak intuisi, yang diminta.
Divergensi Kullback-Leibler adalah Jika Anda memiliki dua hipotesis mengenai distribusi mana yang menghasilkan data X , P dan Q , maka p ( x )
Mari kita lihat ini dalam contoh khusus. Misalkan adalah distribusi t ν dan Q distribusi normal standar (dalam contoh numerik di bawah ν = 1 ). Integral mendefinisikan divergensi terlihat rumit, jadi mari kita gunakan integrasi numerik di R:P tν Q ν=1
Dalam kasus pertama integral tampaknya berbeda secara numerik, menunjukkan divergensi sangat besar atau tidak terbatas, dalam kasus kedua itu kecil, meringkas:
Ini terkait dengan jawaban saya di sini: Mengapa kita harus menggunakan kesalahan alih-alih kesalahan normal?
sumber
Saya memperkenalkan contoh ini dengan sengaja. Bayangkan Anda melempar koin, misalnya 100 kali. Selama koin ini tidak bias, Anda cukup menyandikan hasil lemparan dengan urutan 0-1 bit, (1-kepala, 0-ekor). Dalam situasi seperti itu ketika probabilitas kepala sama dengan probabilitas ekor dan sama dengan 0,5, itu adalah pengkodean yang cukup efektif. Sekarang, kami memiliki beberapa koin bias, jadi kami lebih suka mengkodekan hasil yang lebih mungkin dengan kode lebih pendek, misalnya menggabungkan kelompok kepala dan ekor dan mewakili urutan kepala k dengan kode yang lebih panjang daripada urutan ekor k (mereka lebih mungkin). Dan di sini terjadi Kullback-Leibler divergence . Jika P mewakili distribusi hasil yang benar, dan Q hanya merupakan perkiraan dari P, makaD(P||Q) D(P||Q) menunjukkan penalti yang Anda bayar ketika Anda menyandikan hasil yang sebenarnya berasal dari P distrib dengan pengkodean yang ditujukan untuk Q (penalti dalam arti bit tambahan yang perlu Anda gunakan).
Jika Anda hanya membutuhkan metrik, gunakan jarak Bhattacharyya (tentu saja versi yang dimodifikasi )1−[∑xp(x)q(x)−−−−−−−√]−−−−−−−−−−−−−−−√
sumber
Saya tergoda di sini untuk memberikan jawaban yang murni intuitif untuk pertanyaan Anda. Mengulangi apa yang Anda katakan, divergensi KL adalah cara untuk mengukur jarak antara dua distribusi karena Anda akan menghitung jarak antara dua set data dalam ruang Hilbert, tetapi harus berhati-hati.
Mengapa? Divergensi KL bukan jarak seperti yang biasanya Anda gunakan, seperti misalnya norma . Memang, itu positif dan sama dengan nol jika dan hanya jika dua distribusi itu sama (seperti dalam aksioma untuk mendefinisikan jarak). Tetapi seperti yang disebutkan, itu tidak simetris. Ada cara untuk menghindari ini, tetapi masuk akal untuk tidak simetris.L2
Memang, divergensi KL menentukan jarak antara distribusi model (yang Anda benar-benar tahu) dan yang teoritis sehingga masuk akal untuk menangani berbeda (jarak "teoritis" dari ke dengan asumsi model ) dan ("empiris" jarak ke dengan asumsi data ) karena mereka berarti ukuran yang sangat berbeda.Q P KL(P,Q) P Q P KL(Q,P) P Q Q
sumber
Teori Informasi Elemen buku teks memberi kita contoh:
Untuk memparafrasekan pernyataan di atas, kita dapat mengatakan bahwa jika kita mengubah distribusi informasi (dari q ke p) kita memerlukan bit ekstra D (p || q) untuk mengkodekan distribusi yang baru.
Sebuah ilustrasi
Izinkan saya mengilustrasikan ini menggunakan satu aplikasi dalam pemrosesan bahasa alami.
Pertimbangkan bahwa sekelompok besar orang, berlabel B, adalah mediator dan masing-masing dari mereka diberi tugas untuk memilih kata benda dari
turkey
,animal
danbook
dan mengirimkan ke C. Ada nama pria A yang dapat mengirimkan masing-masing email ke memberi mereka beberapa petunjuk. Jika tidak ada seorang pun di grup yang menerima email, mereka dapat mengangkat alis mereka dan ragu-ragu untuk sementara mempertimbangkan kebutuhan C. Dan probabilitas setiap opsi yang dipilih adalah 1/3. Distribusi yang benar-benar seragam (jika tidak, itu mungkin berhubungan dengan preferensi mereka sendiri dan kami mengabaikannya).Tetapi jika mereka diberi kata kerja, seperti
baste
, 3/4 dari mereka dapat memilihturkey
dan 3/16 memilihanimal
dan 1/16 memilihbook
. Lalu berapa banyak informasi dalam bit yang diperoleh masing-masing mediator setelah mereka tahu kata kerjanya? Ini:Tapi bagaimana jika kata kerja yang diberikan adalah
read
? Kita dapat membayangkan bahwa mereka semua akan memilihbook
tanpa ragu-ragu , maka perolehan informasi rata-rata untuk setiap mediator dari kata kerjaread
adalah:read
dapat memberi lebih banyak informasi kepada para mediator. Dan itulah yang dapat diukur oleh entropi relatif.Mari kita lanjutkan kisah kita. Jika C mencurigai bahwa kata benda itu mungkin salah karena A mengatakan kepadanya bahwa ia mungkin telah melakukan kesalahan dengan mengirimkan kata kerja yang salah ke mediator. Lalu berapa banyak informasi dalam bit yang dapat diberikan sepotong berita buruk seperti C?
1) jika kata kerja yang diberikan oleh A adalah
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
baste
:2) tetapi bagaimana jika kata kerjanyaD(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
read
?Karena C tidak pernah tahu apa yang akan menjadi dua kata benda lainnya dan setiap kata dalam kosa kata akan mungkin.
Kita dapat melihat bahwa divergensi KL asimetris.
Saya harap saya benar, dan jika tidak tolong beri komentar dan bantu koreksi saya. Terima kasih sebelumnya.
sumber