Secara kualitatif apa itu Cross Entropy

15

Pertanyaan ini memberikan definisi kuantitatif tentang entropi silang, dalam hal rumusnya.

Saya mencari definisi yang lebih jelas, kata wikipedia:

Dalam teori informasi, entropi silang antara dua distribusi probabilitas mengukur jumlah rata-rata bit yang diperlukan untuk mengidentifikasi suatu peristiwa dari serangkaian kemungkinan, jika skema pengkodean digunakan berdasarkan distribusi probabilitas yang diberikan q, daripada distribusi "benar". .

Saya telah menekankan bagian yang memberi saya kesulitan dalam memahami hal ini. Saya ingin definisi yang bagus yang tidak memerlukan pemahaman Entropi yang terpisah (sudah ada).

Lyndon White
sumber
1
Anda meminta definisi cross -entropy yang, pada saat yang sama, akan mendefinisikan entropi itu sendiri. Dan secara intuitif begitu ... Jika Anda mengalami kesulitan memahami konsep Entropy itu sendiri, itu akan menjadi ide yang baik untuk terlebih dahulu memahami konsep dasar dan kemudian salah satu dari ekstensi itu.
Alecos Papadopoulos
1
Secara pribadi saya memiliki pemahaman dasar tentang Entropy (meskipun sudah hampir 12 bulan sejak saya menerapkannya). Tetapi ekspresi Entropy yang kuantitatif, harus sesuai dalam satu paragraf pendek, dan cross entropy hanya perlu satu lagi. Jadi saya merasa jawaban yang baik dapat mencakup keduanya, sehingga pembaca tidak perlu merujuk tempat lain untuk memahaminya.
Lyndon White

Jawaban:

23

Untuk menyandikan peristiwa yang terjadi dengan probabilitas Anda memerlukan setidaknya log 2 ( 1 / p ) bit (mengapa? Lihat jawaban saya pada "Apa peran logaritma dalam entropi Shannon?" ).plog2(1/p)

Jadi dalam pengkodean optimal, panjang rata-rata pesan yang dikodekan adalah yaitu,Shannon entropydari distribusi probabilitas asli.

ipilog2(1pi),

PQ

ipicode_length(i)=ipilog2(1qi),
ipilog2(1pi)

P=(12,12,0,0)

Kemudian jika kita ingin menyandikannya secara optimal, kita menyandikan A sebagai 0 dan B sebagai 1, jadi kita mendapatkan satu pesan yang disandikan per satu huruf. (Dan itu adalah persisnya Shannon entropi dari distribusi probabilitas kita.)

PQ=(14,14,14,14)

Piotr Migdal
sumber
Penjelasan yang bagus, terima kasih. Namun, definisi wikipedia adalah sum_i [p_i * log (q_i)]. Penggunaan 1 / q_i Anda memberikan jumlah status yang memungkinkan, karenanya log_2 mengonversinya menjadi jumlah bit yang diperlukan untuk menyandikan simbol tunggal, tetapi halaman wikipedia menggambarkan sesuatu yang agak berbeda.
redcalx
4
1/qilog(1/qi)=log(qi)