Apa peran logaritma dalam entropi Shannon?

72

Entropi Shannon adalah negatif dari jumlah probabilitas setiap hasil dikalikan dengan logaritma probabilitas untuk setiap hasil. Apa tujuan yang dilayani oleh logaritma dalam persamaan ini?

Jawaban intuitif atau visual (sebagai lawan dari jawaban yang sangat matematis) akan diberikan poin bonus!

entropy intuition sequence-analysis histelheim
sumber

11

Anda (atau pembaca lain) dapat menikmati: A. Renyi (1961), Tentang Ukuran Entropi dan Informasi , Proc. dari Simposium Berkeley Keempat tentang Statistik dan Probabilitas Matematika , vol. 1, 547-561.

kardinal

Berdasarkan reaksi Anda , saya kira maksud Anda adalah mengapa Shannon menggunakan logaritma dalam formulanya, bukan?

Ooker

@ Ooker: Itu salah satu cara untuk mengungkapkannya. "Kenapa" dia memasukkannya ke dalam? "Apa" fungsi atau perannya? "" Apa "yang dicapai?" Bagaimana "itu membantu? Bagi saya, ini semua berada di lingkungan yang sama ...

histelheim

Lihatlah jawaban saya di sini: stats.stackexchange.com/questions/66186/…

kjetil b halvorsen

Lihat jawaban saya, saya pikir arti dari log benar-benar dapat dipahami hanya dengan memeriksa akar entropi Shannon dalam mekanika statistik

Aksakal

51

Entropi Shannon adalah kuantitas yang memuaskan serangkaian hubungan.

Singkatnya, logaritma adalah membuatnya tumbuh secara linear dengan ukuran sistem dan "berperilaku seperti informasi".

Yang pertama berarti bahwa entropi melempar koin kali adalah kali entropi melempar koin: $n$ $n$

- \sum_{i = 1}^{2^{n}} \frac{1}{2^{n}} \log (\frac{1}{2^{n}}) = - \sum_{i = 1}^{2^{n}} \frac{1}{2^{n}} n \log (\frac{1}{2}) = n (- \sum_{i = 1}^{2} \frac{1}{2} \log (\frac{1}{2})) = n .

$- \sum_{i=1}^{2^n} \frac{1}{2^n} \log\left(\tfrac{1}{2^n}\right) = - \sum_{i=1}^{2^n} \frac{1}{2^n} n \log\left(\tfrac{1}{2}\right) = n \left( - \sum_{i=1}^{2} \frac{1}{2} \log\left(\tfrac{1}{2}\right) \right) = n.$

Atau hanya untuk melihat cara kerjanya ketika melemparkan dua koin yang berbeda (mungkin tidak adil - dengan kepala dengan probabilitas dan ekor untuk koin pertama, dan dan untuk kedua) sehingga sifat-sifat logaritma (logaritma produk adalah jumlah logaritma) sangat penting. $p_1$ $p_2$ $q_1$ $q_2$

- \sum_{i = 1}^{2} \sum_{j = 1}^{2} p_{i} q_{j} \log (p_{i} q_{j}) = - \sum_{i = 1}^{2} \sum_{j = 1}^{2} p_{i} q_{j} (\log (p_{i}) + \log (q_{j}))

$-\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(p_i q_j) = -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \left( \log(p_i) + \log(q_j) \right)$

= - \sum_{i = 1}^{2} \sum_{j = 1}^{2} p_{i} q_{j} \log (p_{i}) - \sum_{i = 1}^{2} \sum_{j = 1}^{2} p_{i} q_{j} \log (q_{j}) = - \sum_{i = 1}^{2} p_{i} \log (p_{i}) - \sum_{j = 1}^{2} q_{j} \log (q_{j})

$= -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(p_i) -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(q_j) = -\sum_{i=1}^2 p_i \log(p_i) - \sum_{j=1}^2 q_j \log(q_j)$

Tetapi entropi Rényi juga memiliki properti ini (entropi ini diparametisasi oleh bilangan real , yang menjadi entropi Shannon untuk ). $\alpha$ $\alpha \to 1$

Namun, ini dia properti kedua - Shannon entropy adalah spesial, karena berkaitan dengan informasi. Untuk mendapatkan perasaan intuitif, Anda dapat melihat sebagai rata-rata .

H = \sum_{i} p_{i} \log (\frac{1}{p_{i}})

$H = \sum_i p_i \log \left(\tfrac{1}{p_i} \right)$

\log (1 / p)

$\log(1/p)$

Kami dapat memanggil informasi . Mengapa? Karena jika semua kejadian terjadi dengan probabilitas , itu berarti ada kejadian . Untuk mengetahui peristiwa mana yang telah terjadi, kita perlu menggunakan bit (setiap bit menggandakan jumlah peristiwa yang dapat kita pisahkan). $\log(1/p)$ $p$ $1/p$ $\log(1/p)$

Anda mungkin merasa cemas, "OK, jika semua peristiwa memiliki probabilitas yang sama, masuk akal untuk menggunakan sebagai ukuran informasi. Tetapi jika tidak, mengapa rata-rata informasi masuk akal?" - dan itu adalah kekhawatiran alami. $\log(1/p)$

Tapi ternyata bahwa itu masuk akal - sumber Shannon coding Teorema mengatakan bahwa sebuah string dengan huruf uncorrelted dengan probabilitas panjang tidak dapat dikompresi (rata-rata) string biner lebih pendek dari . Dan pada kenyataannya, kita dapat menggunakan Huffman coding untuk kompres string dan sangat dekat dengan . $\{p_i\}_i$ $n$ $n H$ $n H$

Lihat juga:

Pengantar yang bagus adalah entri teori Informasi Cosma Shalizi
Apa itu entropi? - MathOverflow
Membedah format GZIP

Piotr Migdal
sumber

11

Jawaban ini memiliki banyak detail yang bagus - tetapi dari sudut pandang orang awam masih mengesampingkan masalah - apa peran logaritma? Mengapa kita tidak bisa menghitung entropi tanpa logaritma?

histelheim

6

@ histelheim Apa yang Anda maksud dengan "tanpa logaritma"? hanya satu. Jika Anda menginginkan ukuran keanekaragaman lain tanpa , lihat indeks keanekaragaman - misalnya indeks Inverse Simpson yang menunjukkan jumlah pilihan efektif (satu di atas probabilitas rata-rata), ada indeks Gini-Simpson yang selalu antara 0 dan satu. Dan jika Anda tidak peduli dengan sifat halus terkait informasi dari entropi Shannon, Anda dapat menggunakan salah satu dari mereka (meskipun, bobotnya rendah dan probabilitas tinggi berbeda).

\sum_{i} p_{i}

$\sum_i p_i$

\log

$\log$

1 / \sum_{i} p_{i}^{2}

$1/\sum_i p_i^2$

1 - \sum_{i} p_{i}^{2}

$1-\sum_i p_i^2$

Piotr Migdal

10

Saya bingung dengan komentar terakhir Anda, Histelheim: apa yang bisa disebut "entropi tanpa logaritma"? Itu menunjukkan bahwa Anda belum mengartikulasikan pertanyaan Anda dengan jelas, karena sepertinya Anda memiliki konsep "entropi" yang tidak disebutkan dalam pikiran. Harap jangan terus menebak - edit pertanyaan Anda sehingga pembaca Anda dapat memberikan jenis jawaban yang Anda cari.

whuber

1

@ Piotr Migdal - Anda menulis "logaritma untuk membuatnya tumbuh secara linear dengan ukuran sistem dan" berperilaku seperti informasi "." - ini sepertinya penting bagi saya untuk memahami peran logaritma, namun saya tidak begitu jelas apa artinya.

histelheim

1

@ Piotr Migdal - selanjutnya, penjelasan Anda berikut "Kami dapat memanggil informasi log (1 / p). Mengapa?" tampaknya masuk akal bagi saya. Apakah logaritma pada dasarnya memindahkan kita dari indeks keanekaragaman ke indeks informasi - mengukur jumlah bit yang kita butuhkan untuk membedakan peristiwa.

histelheim

25

Ini sama dengan jawaban yang lain, tetapi saya pikir cara terbaik untuk menjelaskannya adalah dengan melihat apa yang dikatakan Shannon dalam makalah aslinya.

Ukuran logaritmik lebih nyaman karena berbagai alasan:

Ini praktis lebih bermanfaat. Parameter kepentingan teknik seperti waktu, bandwidth, jumlah relay, dll., Cenderung bervariasi secara linier dengan logaritma dari sejumlah kemungkinan. Misalnya, menambahkan satu relai ke grup menggandakan jumlah status relai yang mungkin. Ia menambahkan 1 ke logaritma basis 2 dari nomor ini. Menggandakan waktu kira-kira kuadrat jumlah pesan yang mungkin, atau menggandakan logaritma, dll.

Lebih dekat dengan perasaan intuitif kita tentang ukuran yang tepat. Ini terkait erat dengan (1) karena kita secara intuitif mengukur entitas dengan perbandingan linier dengan standar umum. Misalnya, seseorang merasa bahwa dua kartu berlubang harus memiliki kapasitas dua kali lipat satu untuk penyimpanan informasi, dan dua saluran yang identik dua kali kapasitas satu untuk mengirimkan informasi.

Secara matematis lebih cocok. Banyak operasi pembatas yang sederhana dalam hal logaritma tetapi akan membutuhkan penyajian yang canggung dalam hal jumlah kemungkinan

Sumber: Shannon, Teori Komunikasi Matematika (1948) [ pdf ].

Perhatikan bahwa entropi Shannon bertepatan dengan entropi Gibbs dari mekanika statistik, dan ada juga penjelasan mengapa log terjadi pada entropi Gibbs. Dalam mekanika statistik, entropi seharusnya menjadi ukuran jumlah keadaan yang memungkinkan di mana suatu sistem dapat ditemukan. Alasan mengapa lebih baik daripada adalah karena biasanya merupakan fungsi yang berkembang sangat cepat dari argumennya, dan karenanya tidak dapat didekati secara bermanfaat oleh ekspansi Taylor, sedangkan bisa. (Saya tidak tahu apakah ini adalah motivasi asli untuk mengambil log, tetapi dijelaskan dengan cara ini di banyak buku pengantar fisika.) $\Omega$ $\log \Omega$ $\Omega$ $\Omega$ $\log \Omega$

Flounderer
sumber

Jawaban ini tampaknya menjadi yang paling fokus namun informatif.

Bintang terang

1

Ini bukan alasan mengapa log muncul dalam perhitungan entropi. Inilah sebabnya mengapa informasi yang dilaporkan dilaporkan demikian. Ada kuantitas alternatif: "kebingungan" yang melaporkan informasi tanpa log. Di bagian makalah ini, Shannon berdebat mendukung bit / nats / hartley, dan menentang kebingungan.

Neil G

15

cara lain untuk melihat ini adalah dari sudut pandang algoritmik. Bayangkan bahwa Anda akan menebak nomor , bahwa satu-satunya informasi yang Anda miliki adalah bahwa jumlah ini dalam interval . Dalam situasi ini, algoritma optimal untuk menebak angka adalah algoritma pencarian Biner sederhana , yang menemukan dalam urutan . Formula ini secara intuitif mengatakan berapa banyak pertanyaan yang perlu Anda tanyakan untuk mencari tahu apa . Misalnya, jika , Anda harus mengajukan maksimum 3 pertanyaan untuk menemukan yang tidak dikenal . $x$ $1 \leq x \leq N$ $x$ $O(\log_2N)$ $x$ $N=8$ $x$

Dari perspektif probabilistik, ketika Anda menyatakan sebagai sama-sama mungkin nilai-nilai dalam kisaran , itu berarti untuk . Claude Shannon dengan baik menunjukkan bahwa konten informasi dari hasil didefinisikan sebagai: $x$ $1 \leq x \leq N$ $p(x) = 1/N$ $1 \leq x \leq N$ $x$

h (x) = \log_{2} \frac{1}{p (x)}

$\begin{equation} h(x) = \log_2 \frac{1}{p(x)} \end{equation}$

Alasan untuk dasar 2 di logaritma adalah bahwa di sini kita mengukur informasi dalam bit . Anda juga dapat mengasumsikan logaritma natural yang membuat informasi Anda diukur dalam nats . Sebagai contoh, isi informasi outcom adalah . Nilai ini persis sama dengan jumlah langkah dalam algoritma pencarian biner (atau jumlah pernyataan IF dalam algoritma). Oleh karena itu, jumlah pertanyaan yang Anda perlu ketahui sama dengan , persisnya isi informasi dari hasil . $x=4$ $h(4) = 3$ $x$ $4$ $x=4$

Kami juga dapat menganalisis kinerja algoritma pencarian biner untuk kemungkinan hasil apa pun. Salah satu cara untuk melakukannya adalah untuk mencari tahu apa yang yang diharapkan jumlah pertanyaan yang harus meminta setiap nilai . Perhatikan bahwa jumlah pertanyaan yang diperlukan untuk menebak nilai , seperti yang saya bahas di atas, adalah . Oleh karena itu, jumlah pertanyaan yang diharapkan untuk adalah menurut definisi sama dengan: $x$ $x$ $h(x)$ $x$

⟨ h (x) ⟩ = \sum_{1 \leq x \leq N} p (x) h (x)

$\begin{equation} \langle h(x) \rangle = \sum_{1 \leq x \leq N} p(x) h(x) \end{equation}$

Jumlah pertanyaan yang diharapkan sama dengan entropi ensemble , atau singkatnya entropi. Oleh karena itu, kita dapat menyimpulkan bahwa entropi menghitung jumlah pertanyaan (atau rata-rata) yang diharapkan yang perlu ditanyakan untuk menebak suatu hasil, yang merupakan kompleksitas komputasi dari algoritma pencarian biner. $\langle h(x) \rangle$ $H(X)$ $H(X)$

omidi
sumber

1

+ Ini adalah salah satu aplikasi favorit saya dari teori informasi - analisis algoritma. Jika Anda memiliki poin keputusan dengan hasil> 2, seperti ketika Anda mengindeks array, itulah prinsip di balik kode hash dan O (n) macam.

Mike Dunlavey

Argumen ini baik untuk entropi diskrit, tetapi tidak mudah digeneralisasi menjadi entropi kontinu.

Neil G

12

Inilah penjelasan yang tidak masuk akal. Bisa dibilang 2 buku dengan ukuran yang sama memiliki informasi dua kali lipat dari 1 buku, kan? (Mempertimbangkan buku menjadi serangkaian bit.) Nah, jika hasil tertentu memiliki probabilitas P, maka Anda dapat mengatakan konten informasinya adalah tentang jumlah bit yang Anda butuhkan untuk menuliskan 1 / P. (misalnya jika P = 1/256, itu 8 bit.) Entropi hanya rata-rata dari panjang bit informasi itu, di atas semua hasil.

Mike Dunlavey
sumber

5

$\log(p_i)$ $\log(p_i)$ $H(p_1, \ldots ,p_N)$

Shannon memberikan bukti matematis dari hasil ini yang telah sepenuhnya diambil dan diterima secara luas. Tujuan dan signifikansi logaritma dalam persamaan entropi karena itu mandiri dalam asumsi & bukti.

Ini tidak membuatnya mudah dimengerti, tetapi pada akhirnya itulah alasan mengapa logaritma muncul.

Saya telah menemukan referensi berikut berguna selain yang terdaftar di tempat lain:

Teori Probabilitas: Logika Ilmu Pengetahuan oleh ET Jaynes . Jaynes adalah salah satu dari sedikit penulis yang memperoleh banyak hasil dari awal; lihat Bab 11.
Teori Informasi, Inferensi, dan Algoritma Pembelajaran oleh David MacKay. Berisi analisis mendalam tentang teorema kode sumber Shannon; lihat Bab 4.

pengguna119961
sumber

4

Ringkasan:

$n$ $n$

Contoh:

$6$ $6$ $1$ $n=2$ $1$

$3.5$ $6/2=3$

$1$

Mari kita lakukan:

$6$ $> 3.5$
$6/2=3$ kemungkinan tersisa. T: apakah hasil ? A: Ya. $\ge 5$
$6/2/2=1.5$ kemungkinan tersisa. T: apakah hasil ? A: Ya. $= 6$

Anda menyimpulkan bahwa hasilnya harus nomor , dan Anda hanya perlu mengajukan pertanyaan biner. Yaitu $6$ $3$ $ceil(\log_2(6)) = ceil(2.58) = 3$

Sekarang, jelas, jumlah pertanyaan biner selalu merupakan bilangan alami. Jadi mengapa entropi Shannon tidak menggunakan fungsi ? Karena itu sebenarnya melontarkan rata - rata jumlah pertanyaan bagus yang perlu ditanyakan. $ceil$

Jika Anda mengulangi percobaan ini (dengan menulis kode Python), Anda akan melihat bahwa rata-rata Anda perlu bertanya pertanyaan biner yang sempurna. $2.58$

Tentu saja, jika Anda mengajukan pertanyaan biner, Anda mengatur dasar log itu. Jadi di sini karena pertanyaan kami adalah biner. Jika Anda mengajukan pertanyaan yang mengharapkan banyak kemungkinan jawaban, Anda akan menetapkan basis ke alih-alih , yaitu . $\log_2(...)$ $n$ $n$ $2$ $\log_n(...)$

Simulasi:

import random

total_questions = 0
TOTAL_ROUNDS = 10000

for i in range(0,TOTAL_ROUNDS):
    outcome = random.randrange(1,7)
    total_questions += 1
    if outcome > 3.5:
        total_questions += 1
        if outcome >= 5:
            total_questions += 1
            if outcome == 5:
                pass
            else:
                # must be 6! no need to ask
                pass
        else:
            # must be 4! no need to ask
            pass
    else:
        total_questions += 1
        if outcome >= 2:
            total_questions += 1
            if outcome == 2:
                pass
            else:
                # must be 3! no need to ask
                pass
        else:
            # must be 1! no need to ask
            pass


print 'total questions: ' + str(total_questions)
print 'average questions per outcome: ' + str(total_questions/float(TOTAL_ROUNDS))

Hasil:

total questions: 26634
average questions per outcome: 2.6634

Bung molly suci . $2.6634 \ne \log_2(6) \ne 2.58$

Apa yang salah? Ini hampir dekat, tapi tidak benar-benar dekat seperti yang saya harapkan. Apakah itu PRNG Python yang mencoba mengatakan lelucon lambat? Atau apakah Shannon salah? Atau itu -Tuhan melarang- pemahaman saya salah? Either way BANTUAN. SOS sudah dude.

manusia gua
sumber

2

Anda mendapat penjelasan yang bagus. Penyelesaian kesulitan Anda adalah menggabungkan masalah yang terpisah. Saya akan menggambarkan. Jangan meramalkan satu mati pada suatu waktu: memprediksi, katakanlah, lima sekaligus. Ada kemungkinan. Dengan mengajukan pertanyaan, Anda dapat menentukan kombinasi yang memungkinkan. Akibatnya (karena dadu independen) ada rata-rata bit informasi per mati. Lebih baik, putar dadu : dibutuhkan pertanyaan untuk menemukan semua nilai mereka, atau pertanyaan per mati untuk memprediksi semuanya. Dll

6^{5} = 7776

$6^5=7776$

⌈ \log_{2} (6^{5}) ⌉ = 13

$\lceil\log_2(6^5)\rceil=13$

13 / 5 = 2.6

$13/5=2.6$

190537

$190537$

492531

$492531$

492531 / 190537 \approx 2.584962500722

$492531/190537\approx 2.584962500722$

whuber

@whuber bukankah ini yang saya lakukan dalam kode saya? Saya melemparkan 10.000 mati, dan jumlah total pertanyaan saya minta semua mati. Saya kemudian melakukan jumlah / 10000 saya mendapatkan 2,66.

manusia gua

1

Tidak, Anda tidak melakukannya di kode Anda sama sekali! Anda perlu mengajukan serangkaian pertanyaan yang dirancang untuk secara bersamaan mendapatkan status semua dadu sekaligus. Itu tidak sama dengan jumlah rata-rata pertanyaan yang diperlukan untuk menemukan keadaan satu orang mati pada satu waktu.

Whuber

3

Misalkan kita memiliki sumber informasi terpisah yang menghasilkan simbol dari beberapa alfabet terbatas dengan probabilitas . Shannon mendefinisikan entropi sebagai ukuran sedemikian rupa $\Omega = \{\omega_1, \dotsc, \omega_n\}$ $p_1, \dotsc, p_n$ $H(p_1, \dotsc, p_n)$

$H$ kontinu dalam parameternya,
$H$ adalah monoton yang meningkat dalam ketika (karena ketidakpastian meningkat), dan $n$ $p_1 = \dots = p_n = \frac1n$
$H$ tidak tergantung pada bagaimana suatu pilihan dipecah menjadi pilihan yang berurutan. Sebagai contoh, perhatikan tiga peristiwa ketika menggulung dadu hitam dan dadu putih: (1) dadu putih itu aneh, (2) dadu putih genap dan dadu hitam kurang dari tiga, dan (3) sebaliknya. Entah dadu digulung bersama, atau dadu putih digulung pertama, dan mungkin dadu hitam jika perlu. Persyaratan ini menyatakan bahwa $\begin{aligned} H (\frac{1}{2}, \frac{1}{6}, \frac{1}{3}) & = H (\frac{1}{2}, \frac{1}{2}) + \frac{1}{2} H (\frac{1}{3}, \frac{2}{3}) . \end{aligned}$ $\begin{align} H\left(\frac12, \frac16, \frac13\right) &= H\left(\frac12, \frac12\right) + \frac12 H\left(\frac13, \frac23\right). \end{align}$

Shannon membuktikan bahwa satu-satunya memenuhi ketiga persyaratan memiliki bentuk mana sesuai dengan unit pengukuran informasi yang sewenang-wenang. Ketika , unit ini adalah bit . $H$

\begin{aligned} H (p_{1}, \dots, p_{n}) & = - \sum_{i = 1}^{n} p_{i} \log_{k} p_{i} \end{aligned}

$\begin{align} H(p_1, \dotsc, p_n) &= -\sum_{i=1}^np_i\log_kp_i \end{align}$

k > 1

$k>1$

k = 2

$k=2$

Neil G
sumber

3

Pertanyaan ini diajukan dua tahun lalu dan sudah ada banyak jawaban yang luar biasa, tetapi saya ingin menambahkan jawaban saya yang banyak membantu saya.

Pertanyaannya adalah

Apa tujuan yang dilayani oleh logaritma dalam persamaan ini?

Logaritma (biasanya didasarkan pada 2) adalah karena Ketimpangan Kraft .

$\sum_{i=1}^m 2^{-l_i} <= 1$

$l_i$ $L_x$ $P(x)$

$P(x) = 2^{-L(x)}$

$L_{(x)} = -logP(x)$ $P(x)$ $L_{(x)}$

$L_{(x)}$ $P(x)$ $-P(x)logP(x)$

Sebuah intuitif ilustrasi dan visual yang jawaban (seperti yang Anda diperlukan, tetapi lebih khusus untuk Kraft Ketidaksetaraan) yang diartikulasikan dalam makalah ini Kode Pohon, dan Ketimpangan Kraft .

Lerner Zhang
sumber

1

Berdasarkan pada tidak menerima jawaban yang sudah ada, saya pikir apa yang Anda cari adalah alasan mengapa Shannon menggunakan logaritma dalam formulanya di tempat pertama. Dengan kata lain, filosofi itu.

_{Penafian : Saya hanya ke bidang ini selama seminggu, datang ke sini karena memiliki pertanyaan seperti Anda . Jika Anda memiliki lebih banyak pengetahuan tentang ini, beri tahu saya.}

Saya memiliki pertanyaan ini setelah membaca salah satu makalah Ulanowicz yang paling penting, Meningkatkan Entropi: Panasnya kematian atau keharmonisan abadi? . Ini adalah paragraf yang menjelaskan mengapa rumus memiliki -log (p) alih-alih (1-p):

Sebelum membongkar lebih jauh definisi formal entropi, orang akan dibenarkan untuk bertanya mengapa tidak memilih (1 - p) alih-alih [- log (p)] sebagai ukuran paling tidak ada? Jawabannya adalah bahwa produk yang dihasilkan dengan p (yaitu [p-p ^ 2]) sempurna simetris di sekitar nilai p = 0,5. Perhitungan berdasarkan kombinasi simetris seperti itu akan mampu menggambarkan hanya alam semesta yang dapat dibalik. Boltzmann dan Gibbs, bagaimanapun, berusaha untuk mengkuantifikasi alam semesta yang tidak dapat diubah. Dengan memilih fungsi logaritmik cembung univariat, Boltzmann dengan demikian memberikan bias pada ketidakberadaan daripada keberadaan. Satu pemberitahuan, misalnya, bahwa max [–xlog {x}] = {1 / e} ≈ 0,37, sehingga ukuran ketidakpastian ditentukan ke arah nilai pi yang lebih rendah.

Sepertinya Shannon memilih logaritma tanpa alasan. Dia hanya "mencium" bahwa dia harus menggunakan logaritma. Mengapa Newton memilih operasi pengali dalam rumusnya F = m * a?

Perhatikan bahwa pada saat itu, dia tidak tahu tentang entropi :

Kekhawatiran terbesar saya adalah apa sebutannya. Saya berpikir untuk menyebutnya 'informasi', tetapi kata itu terlalu banyak digunakan, jadi saya memutuskan untuk menyebutnya 'ketidakpastian'. Ketika saya membahasnya dengan John von Neumann, dia punya ide yang lebih baik. Von Neumann mengatakan kepada saya, 'Anda harus menyebutnya entropi, karena dua alasan. Di tempat pertama fungsi ketidakpastian Anda telah digunakan dalam mekanika statistik dengan nama itu, sehingga sudah memiliki nama. Di tempat kedua, dan yang lebih penting, tidak ada yang tahu apa itu entropi sebenarnya, jadi dalam debat Anda akan selalu mendapat keuntungan.

Jadi jawaban saya adalah: tidak ada alasan untuk ini. Dia memilih ini karena hanya berfungsi secara ajaib.

Ooker
sumber

0

Entropi didefinisikan sebagai logaritma rata-rata geometrik dari koefisien multinomial yang menyatakan jumlah keadaan di mana suatu sistem dapat berada dalam:

\log \sqrt[N]{(\binom{N}{n_{1}, \dots, n_{k}})}

$\log \sqrt[N]{N \choose n_1,\ldots,n_k}$

Logaritma muncul dalam rumus setelah menggunakan perkiraan Stirling tentang faktorial (lihat penjelasan ini )

Atamiri
sumber

3

Saya percaya OP tahu logaritma adalah bagian dari definisi. Mereka bertanya mengapa ada di sana?

whuber

0

Log berasal dari derivasi fungsi H yang memenuhi persyaratan alami tertentu. Lihat hal. 3 dtk 2 dari sumber ini:

http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf

Mengingat aksioma, jika Anda melakukan optimasi, Anda mendapatkan fungsi (konstanta upto) yang unik dengan log di dalamnya.

Semua jawaban di atas benar, kecuali mereka menafsirkan log, tetapi tidak menjelaskan sumbernya.

Swapnil Bhatia
sumber

0

Saya kira pertanyaan Anda lebih tentang "makna" dari logaritma itu dan mengapa masing-masing komponen berkontribusi pada makna keseluruhan formula, daripada sekadar formalisme yang menunjukkan koherensi definisi dengan persyaratan tertentu.

Gagasan dalam entropi Shannon adalah untuk mengevaluasi informasi pesan dengan melihat FREQUENCY -nya (yaitu ) dan pada GENERALITY -nya (yaitu ): $p(x)$ $-log(p(x))$

$p(x)$ : semakin "sering" pesan semakin sedikit informasi yang dibawa (yaitu lebih mudah diprediksi).
$-log(p(x))$ : Semakin banyak pesan "umum" semakin banyak informasi yang akan dibawa.

Istilah pertama adalah tentang frekuensi, adalah tentang generalitasnya. $p(x)$ $-log(p(x))$

Mulai sekarang, saya akan membahas bagaimana GENERALITY memengaruhi formula entropi akhir.

Jadi, kita dapat mendefinisikan seberapa umum (mis. Hujan / bukan hujan) atau spesifik (mis. Hujan ligth / rata-rata / hujan sangat berat) adalah pesan berdasarkan jumlah bit yang diperlukan untuk menyandikannya:

l o g_{2} (x) = n u m b e r_o f_b i t s_t o_e n c o d e_t h e_m e s s a g e s

$log_2(x) = number\_of\_bits\_to\_encode\_the\_messages$

Sekarang, duduk, rileks, dan lihat betapa indahnya Entropi Shannon melakukan trik: didasarkan pada asumsi (masuk akal) bahwa pesan yang lebih umum, akibatnya, lebih FREQUENT.

Misalnya, saya akan mengatakan bahwa hujan akan turun baik jika hujan rata-rata, hujan deras atau sangat deras. Dengan demikian, ia mengusulkan untuk menyandikan GENERALITAS pesan berdasarkan seberapa SERING mereka ... dan begitulah:

l o g_{2} N = - l o g_{2} 1 / N = - l o g_{2} P

$log_2 N = -log_2 1/N = -log_2 P$

dengan frekuensi pesan . $N$ $x$

Persamaan tersebut dapat diartikan sebagai: pesan langka akan memiliki penyandian yang lebih lama karena mereka kurang umum, sehingga mereka membutuhkan lebih banyak bit untuk dikodekan dan kurang informatif. Oleh karena itu, memiliki pesan yang lebih spesifik dan langka akan lebih berkontribusi pada entropi daripada memiliki banyak pesan umum dan sering.

Dalam formulasi akhir, kami ingin mempertimbangkan dua aspek. Yang pertama, , adalah bahwa pesan yang sering lebih mudah diprediksi, dan dari perspektif ini kurang informatif (yaitu penyandian yang lebih panjang berarti entropi yang lebih tinggi). Yang kedua, , adalah bahwa pesan yang sering juga bersifat umum, dan dari perspektif ini lebih informatif (yaitu penyandian yang lebih pendek berarti entropi yang lebih rendah). $p(x)$ $-log(p(x))$

Entropi tertinggi adalah ketika kita memiliki sistem dengan banyak pesan langka dan spesifik. Entropi terendah dengan pesan umum dan sering. Di antaranya, kami memiliki spektrum sistem yang setara dengan entropi yang mungkin memiliki pesan langka dan umum atau pesan yang sering tetapi spesifik.

Gabrer
sumber

0

Saya rasa tidak mungkin memberikan jawaban universal "intuitif" kepada Anda. Saya akan memberi Anda jawaban yang intuitif untuk beberapa orang, seperti fisikawan. Logaritma ada untuk mendapatkan energi rata-rata dari sistem. Inilah detailnya.

Shannon menggunakan kata " entropi " karena ia mengadaptasi konsep dari mekanika statistik . Dalam mekanika statistik ada distribusi mani dinamai Boltzmann. Menariknya, ini merupakan distribusi penting sekarang dalam pembelajaran mesin!

Distribusi Boltzmann dapat ditulis sebagai di mana adalah konstanta, dan adalah energi dari sistem dalam keadaan dari ruang keadaan . Dalam termodinamika klasik, , di mana adalah koordinat dan momentum partikel. Ini adalah fungsi probabilitas yang tepat ketika konstanta dipilih dengan benar, yaitu . Juga, Anda mungkin merasa menarik bahwa sesuai dengan suhu sistem.

P = e^{\frac{a - E}{b}}

$P=e^{\frac{a-E} b}$

a, b

$a, b$

E

$E$

d V

$dV$

V

$V$

d V = d p d x

$dV=dpdx$

x, p

$x,p$

a, b

$a,b$

\int_{V} P d V = 1

$\int_VPdV=1$

b

$b$

Sekarang, perhatikan bagaimana , yaitu log probabilitas linear (proporsional) terhadap energi. Sekarang, Anda dapat melihat bahwa ekspresi berikut pada dasarnya adalah nilai energi yang diharapkan dari sistem: Inilah yang dilakukan Gibbs. $\ln P\sim E$

S \equiv - \int_{V} P \ln P d V =< E >

$S\equiv -\int_VP\ln P dV=<E>$

Jadi, Shannon mengambil benda ini dan memutuskannya sebagai dan menyebutnya "entropi," dan kami menyebutnya "entropi Shannon." Tidak ada konsep energi lagi di sini, tapi mungkin Anda bisa anti-log probabilitas negara dan menyebutnya energi negara?

η = - \sum_{i} P_{i} \ln P_{i}

$\eta=-\sum_i P_i\ln P_i$

e^{- P_{i}}

$e^{-P_i}$

Apakah ini cukup intuitif untuk Anda? Ini untuk saya, tetapi saya adalah seorang ahli fisika teoretis di kehidupan lampau. Juga, Anda dapat pergi ke tingkat intuisi yang lebih dalam dengan menghubungkan ke konsep termodinamika yang lebih tua seperti suhu dan karya Boltzmann dan Clausius.

Aksakal
sumber

Apa peran logaritma dalam entropi Shannon?

Jawaban:

Ringkasan:

Contoh:

Simulasi: