Bagaimana menafsirkan entropi diferensial?

Saya baru-baru ini membaca artikel ini pada entropi distribusi probabilitas diskrit. Ini menjelaskan cara berpikir yang baik tentang entropi sebagai bit angka yang diharapkan (setidaknya ketika menggunakan $\log_2$ dalam definisi entropi Anda) yang diperlukan untuk menyandikan pesan ketika penyandian Anda optimal, mengingat kemungkinan distribusi kata-kata yang Anda gunakan.

Namun, ketika memperpanjang dengan kasus terus menerus seperti di sini saya percaya cara berpikir istirahat turun, karena untuk setiap distribusi probabilitas kontinu (perbaiki saya jika yang salah), jadi saya bertanya-tanya apakah ada cara berpikir yang baik tentang apa artinya entropi berkelanjutan, seperti halnya dengan kasus diskrit. $\sum_x p(x) = \infty$ $p(x)$

entropy information-theory dippynark
sumber

Apakah Anda mencoba membaca artikel Wikipedia tentang entropi dan entropi diferensial?

ttnphns

Distribusi kontinu tidak memiliki fungsi massa probabilitas. Analog dalam kasus kontinu adalah integral dari probabilitas kerapatan dan integral untuk seluruh rentang x sama dengan 1.

Michael R. Chernick

@MichaelChernick Saya tidak mengatakan itu memang punya satu, tetapi cara berpikir tentang kasus diskrit bergantung pada kenyataan bahwa jumlahnya sama dengan 1.

dippynark

@ttnphns no I havent, tapi saya akan memeriksanya sekarang, terima kasih.

dippynark

Lihat juga stats.stackexchange.com/questions/66186/… untuk interpretasi entropi Shannon. Beberapa ide dapat ditransfer.

kjetil b halvorsen

Jawaban:

Tidak ada interpretasi entropi diferensial yang akan bermakna atau bermanfaat seperti entropi. Masalah dengan variabel acak kontinu adalah bahwa nilainya biasanya memiliki probabilitas 0, dan karena itu akan membutuhkan jumlah bit yang tak terbatas untuk menyandikan.

Jika Anda melihat batas entropi diskrit dengan mengukur probabilitas interval $[n\varepsilon, (n + 1)\varepsilon[$ , Anda berakhir dengan

- \int p (x) \log_{2} p (x) d x - \log_{2} ε

$-\int p(x) \log_2 p(x) \, dx - \log_2 \varepsilon$

dan bukan entropi diferensial. Kuantitas ini dalam arti lebih bermakna, tetapi akan berbeda hingga tak terbatas karena kita mengambil interval yang lebih kecil dan lebih kecil. Masuk akal, karena kita akan membutuhkan lebih banyak dan lebih banyak bit untuk mengkodekan di mana dari banyak interval nilai jatuh nilai acak kita.

Kuantitas yang lebih berguna untuk melihat distribusi kontinu adalah entropi relatif (juga divergensi Kullback-Leibler). Untuk distribusi diskrit:

D_{KL} [P | | Q] = \sum_{x} P (x) \log_{2} \frac{P (x)}{Q (x)} .

$D_\text{KL}[P || Q] = \sum_x P(x) \log_2 \frac{P(x)}{Q(x)}.$

$P$ $-\log Q_2(x)$ $x$

D_{KL} [p ∣∣ q] = \int p (x) \log_{2} \frac{p (x)}{q (x)} d x,

$D_\text{KL}[p \mid\mid q] = \int p(x) \log_2 \frac{p(x)}{q(x)} \, dx,$

$\log_2 \varepsilon$

$p(x)$ $\lambda(x) = 1$

- \int p (x) \log_{2} p (x) d x = - D_{KL} [p ∣∣ λ] .

$-\int p(x) \log_2 p(x) \, dx = -D_\text{KL}[p \mid\mid \lambda].$

$-\log_2 \int_{n\varepsilon}^{(n + 1)\varepsilon} p(x) \, dx$ $n$ $-\log \varepsilon$ $\lambda$

Lihat ceramah Sergio Verdu untuk pengantar yang bagus untuk entropi relatif.

Lucas
sumber