Untuk dua distribusi diskrit dan , cross entropy didefinisikan sebagai
Saya bertanya-tanya mengapa ini akan menjadi ukuran intuitif jarak antara dua distribusi probabilitas?
Saya melihat bahwa adalah entropi dari , yang mengukur "kejutan" dari . adalah ukuran yang sebagian menggantikan dengan . Saya masih tidak mengerti arti intuitif di balik definisi tersebut.
probability
distributions
cross-entropy
Kadistar
sumber
sumber
Jawaban:
Meminimalkan cross entropy sering digunakan sebagai tujuan pembelajaran dalam model generatif di mana p adalah distribusi yang benar dan q adalah distribusi yang dipelajari.
Entropi silang p dan q sama dengan entropi p ditambah divergensi KL antara p dan q.
Anda dapat menganggap sebagai konstanta karena berasal langsung dari data pelatihan dan tidak dipelajari oleh model. Jadi, hanya istilah divergensi KL yang penting. Motivasi untuk divergensi KL sebagai jarak antara distribusi probabilitas adalah bahwa ia memberi tahu Anda berapa banyak bit informasi yang diperoleh dengan menggunakan p distribusi alih-alih perkiraan q.H(p) p
Perhatikan bahwa divergensi KL bukan metrik jarak yang tepat. Untuk satu hal, itu tidak simetris pada p dan q. Jika Anda membutuhkan metrik jarak untuk distribusi probabilitas, Anda harus menggunakan sesuatu yang lain. Tetapi, jika Anda menggunakan kata "jarak" secara informal maka Anda dapat menggunakan KL divergence.
sumber