Secara intuitif, mengapa entropi silang merupakan ukuran jarak dari dua distribusi probabilitas?

11

Untuk dua distribusi diskrit dan , cross entropy didefinisikan sebagaipq

H(p,q)=xp(x)logq(x).

Saya bertanya-tanya mengapa ini akan menjadi ukuran intuitif jarak antara dua distribusi probabilitas?

Saya melihat bahwa adalah entropi dari , yang mengukur "kejutan" dari . adalah ukuran yang sebagian menggantikan dengan . Saya masih tidak mengerti arti intuitif di balik definisi tersebut.H(p,p)ppH(p,q)pq

Kadistar
sumber
1
Saya sarankan Anda untuk mencari definisi matematis metrik (dan jarak). biasanya, mengikuti sifat-sifat tersebut adalah hal minimum yang harus diikuti oleh fungsi karena jaraknya. Semoga ini bisa membantu. Meskipun sepertinya . Secara intuitif, karena fungsi yang merupakan bagian dari divergensi KL, saya akan menganggapnya semacam divergensi p dan q diimbangi oleh p entropi. Padahal, itu hanya dugaan saja. Juga, divergensi bukan metrik / jarak jadi saya akan terkejut jika Cross Entropy adalah. H(p,q)=H(p)+DKL(p||q)
Charlie Parker
Kemudian memahami divergensi Kullback_leibler membantu memahami lintas entropi: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen
1
Berikut adalah video hebat yang menjelaskan KL Divergence dengan cara yang jelas dan sederhana: youtube.com/watch?v=ErfnhcEV1O8
Katherine Chen
Lihat apakah "Intuisi di belakang Cross Entropy" ini membantu: medium.com/@siddharth.4oct/…
Siddharth Roy

Jawaban:

6

Meminimalkan cross entropy sering digunakan sebagai tujuan pembelajaran dalam model generatif di mana p adalah distribusi yang benar dan q adalah distribusi yang dipelajari.

Entropi silang p dan q sama dengan entropi p ditambah divergensi KL antara p dan q.

H(p,q)=H(p)+DKL(p||q)

Anda dapat menganggap sebagai konstanta karena berasal langsung dari data pelatihan dan tidak dipelajari oleh model. Jadi, hanya istilah divergensi KL yang penting. Motivasi untuk divergensi KL sebagai jarak antara distribusi probabilitas adalah bahwa ia memberi tahu Anda berapa banyak bit informasi yang diperoleh dengan menggunakan p distribusi alih-alih perkiraan q.H(p)p

Perhatikan bahwa divergensi KL bukan metrik jarak yang tepat. Untuk satu hal, itu tidak simetris pada p dan q. Jika Anda membutuhkan metrik jarak untuk distribusi probabilitas, Anda harus menggunakan sesuatu yang lain. Tetapi, jika Anda menggunakan kata "jarak" secara informal maka Anda dapat menggunakan KL divergence.

Harun
sumber
1
mengapa Anda bisa menganggap p sebagai konstanta? Apa yang kamu "pelajari"? q? Pertanyaan aslinya tidak mengatakan apa-apa tentang belajar, jadi saya akan tertarik untuk memahami lebih baik apa yang Anda maksudkan :)
Charlie Parker
2
diedit untuk membuatnya lebih jelas. p adalah distribusi yang berasal dari data pelatihan dan q dipelajari oleh model.
Aaron