Entropi Shannon adalah negatif dari jumlah probabilitas setiap hasil dikalikan dengan logaritma probabilitas untuk setiap hasil. Apa tujuan yang dilayani oleh logaritma dalam persamaan ini?
Jawaban intuitif atau visual (sebagai lawan dari jawaban yang sangat matematis) akan diberikan poin bonus!
entropy
intuition
sequence-analysis
histelheim
sumber
sumber
Jawaban:
Entropi Shannon adalah kuantitas yang memuaskan serangkaian hubungan.
Singkatnya, logaritma adalah membuatnya tumbuh secara linear dengan ukuran sistem dan "berperilaku seperti informasi".
Yang pertama berarti bahwa entropi melempar koin kali adalah kali entropi melempar koin:n n
Atau hanya untuk melihat cara kerjanya ketika melemparkan dua koin yang berbeda (mungkin tidak adil - dengan kepala dengan probabilitas dan ekor untuk koin pertama, dan dan untuk kedua) sehingga sifat-sifat logaritma (logaritma produk adalah jumlah logaritma) sangat penting.p1 p2 q1 q2 −∑i=12∑j=12piqjlog(piqj)=−∑i=12∑j=12piqj(log(pi)+log(qj))
=−∑i=12∑j=12piqjlog(pi)−∑i=12∑j=12piqjlog(qj)=−∑i=12pilog(pi)−∑j=12qjlog(qj)
Tetapi entropi Rényi juga memiliki properti ini (entropi ini diparametisasi oleh bilangan real , yang menjadi entropi Shannon untuk ).α α→1
Namun, ini dia properti kedua - Shannon entropy adalah spesial, karena berkaitan dengan informasi. Untuk mendapatkan perasaan intuitif, Anda dapat melihat sebagai rata-rata .H=∑ipilog(1pi) log(1/p)
Kami dapat memanggil informasi . Mengapa? Karena jika semua kejadian terjadi dengan probabilitas , itu berarti ada kejadian . Untuk mengetahui peristiwa mana yang telah terjadi, kita perlu menggunakan bit (setiap bit menggandakan jumlah peristiwa yang dapat kita pisahkan).log(1/p) p 1/p log(1/p)
Anda mungkin merasa cemas, "OK, jika semua peristiwa memiliki probabilitas yang sama, masuk akal untuk menggunakan sebagai ukuran informasi. Tetapi jika tidak, mengapa rata-rata informasi masuk akal?" - dan itu adalah kekhawatiran alami.log(1/p)
Tapi ternyata bahwa itu masuk akal - sumber Shannon coding Teorema mengatakan bahwa sebuah string dengan huruf uncorrelted dengan probabilitas panjang tidak dapat dikompresi (rata-rata) string biner lebih pendek dari . Dan pada kenyataannya, kita dapat menggunakan Huffman coding untuk kompres string dan sangat dekat dengan .{pi}i n nH n HnH
Lihat juga:
sumber
Ini sama dengan jawaban yang lain, tetapi saya pikir cara terbaik untuk menjelaskannya adalah dengan melihat apa yang dikatakan Shannon dalam makalah aslinya.
Sumber: Shannon, Teori Komunikasi Matematika (1948) [ pdf ].
Perhatikan bahwa entropi Shannon bertepatan dengan entropi Gibbs dari mekanika statistik, dan ada juga penjelasan mengapa log terjadi pada entropi Gibbs. Dalam mekanika statistik, entropi seharusnya menjadi ukuran jumlah keadaan yang memungkinkan di mana suatu sistem dapat ditemukan. Alasan mengapa lebih baik daripada adalah karena biasanya merupakan fungsi yang berkembang sangat cepat dari argumennya, dan karenanya tidak dapat didekati secara bermanfaat oleh ekspansi Taylor, sedangkan bisa. (Saya tidak tahu apakah ini adalah motivasi asli untuk mengambil log, tetapi dijelaskan dengan cara ini di banyak buku pengantar fisika.)log Ω Ω Ω log ΩΩ logΩ Ω Ω logΩ
sumber
cara lain untuk melihat ini adalah dari sudut pandang algoritmik. Bayangkan bahwa Anda akan menebak nomor , bahwa satu-satunya informasi yang Anda miliki adalah bahwa jumlah ini dalam interval . Dalam situasi ini, algoritma optimal untuk menebak angka adalah algoritma pencarian Biner sederhana , yang menemukan dalam urutan . Formula ini secara intuitif mengatakan berapa banyak pertanyaan yang perlu Anda tanyakan untuk mencari tahu apa . Misalnya, jika , Anda harus mengajukan maksimum 3 pertanyaan untuk menemukan yang tidak dikenal .1 ≤ x ≤ N x O ( log 2 N ) x N = 8 xx 1≤x≤N x O(log2N) x N=8 x
Dari perspektif probabilistik, ketika Anda menyatakan sebagai sama-sama mungkin nilai-nilai dalam kisaran , itu berarti untuk . Claude Shannon dengan baik menunjukkan bahwa konten informasi dari hasil didefinisikan sebagai:1 ≤ x ≤ N p ( x ) = 1 / N 1 ≤ x ≤ N xx 1≤x≤N p(x)=1/N 1≤x≤N x
Alasan untuk dasar 2 di logaritma adalah bahwa di sini kita mengukur informasi dalam bit . Anda juga dapat mengasumsikan logaritma natural yang membuat informasi Anda diukur dalam nats . Sebagai contoh, isi informasi outcom adalah . Nilai ini persis sama dengan jumlah langkah dalam algoritma pencarian biner (atau jumlah pernyataan IF dalam algoritma). Oleh karena itu, jumlah pertanyaan yang Anda perlu ketahui sama dengan , persisnya isi informasi dari hasil .x=4 h(4)=3 x 4 x=4
Kami juga dapat menganalisis kinerja algoritma pencarian biner untuk kemungkinan hasil apa pun. Salah satu cara untuk melakukannya adalah untuk mencari tahu apa yang yang diharapkan jumlah pertanyaan yang harus meminta setiap nilai . Perhatikan bahwa jumlah pertanyaan yang diperlukan untuk menebak nilai , seperti yang saya bahas di atas, adalah . Oleh karena itu, jumlah pertanyaan yang diharapkan untuk adalah menurut definisi sama dengan:x x h(x) x
Jumlah pertanyaan yang diharapkan sama dengan entropi ensemble , atau singkatnya entropi. Oleh karena itu, kita dapat menyimpulkan bahwa entropi menghitung jumlah pertanyaan (atau rata-rata) yang diharapkan yang perlu ditanyakan untuk menebak suatu hasil, yang merupakan kompleksitas komputasi dari algoritma pencarian biner.H ( X ) H ( X )⟨h(x)⟩ H(X) H(X)
sumber
Inilah penjelasan yang tidak masuk akal. Bisa dibilang 2 buku dengan ukuran yang sama memiliki informasi dua kali lipat dari 1 buku, kan? (Mempertimbangkan buku menjadi serangkaian bit.) Nah, jika hasil tertentu memiliki probabilitas P, maka Anda dapat mengatakan konten informasinya adalah tentang jumlah bit yang Anda butuhkan untuk menuliskan 1 / P. (misalnya jika P = 1/256, itu 8 bit.) Entropi hanya rata-rata dari panjang bit informasi itu, di atas semua hasil.
sumber
Shannon memberikan bukti matematis dari hasil ini yang telah sepenuhnya diambil dan diterima secara luas. Tujuan dan signifikansi logaritma dalam persamaan entropi karena itu mandiri dalam asumsi & bukti.
Ini tidak membuatnya mudah dimengerti, tetapi pada akhirnya itulah alasan mengapa logaritma muncul.
Saya telah menemukan referensi berikut berguna selain yang terdaftar di tempat lain:
sumber
Ringkasan:
Contoh:
Mari kita lakukan:
Anda menyimpulkan bahwa hasilnya harus nomor , dan Anda hanya perlu mengajukan pertanyaan biner. Yaitu6 3 ceil(log2(6))=ceil(2.58)=3
Sekarang, jelas, jumlah pertanyaan biner selalu merupakan bilangan alami. Jadi mengapa entropi Shannon tidak menggunakan fungsi ? Karena itu sebenarnya melontarkan rata - rata jumlah pertanyaan bagus yang perlu ditanyakan.ceil
Jika Anda mengulangi percobaan ini (dengan menulis kode Python), Anda akan melihat bahwa rata-rata Anda perlu bertanya pertanyaan biner yang sempurna.2.58
Tentu saja, jika Anda mengajukan pertanyaan biner, Anda mengatur dasar log itu. Jadi di sini karena pertanyaan kami adalah biner. Jika Anda mengajukan pertanyaan yang mengharapkan banyak kemungkinan jawaban, Anda akan menetapkan basis ke alih-alih , yaitu .log2(...) n n 2 logn(...)
Simulasi:
Hasil:
Bung molly suci .2.6634≠log2(6)≠2.58
Apa yang salah? Ini hampir dekat, tapi tidak benar-benar dekat seperti yang saya harapkan. Apakah itu PRNG Python yang mencoba mengatakan lelucon lambat? Atau apakah Shannon salah? Atau itu -Tuhan melarang- pemahaman saya salah? Either way BANTUAN. SOS sudah dude.
sumber
Misalkan kita memiliki sumber informasi terpisah yang menghasilkan simbol dari beberapa alfabet terbatas dengan probabilitas . Shannon mendefinisikan entropi sebagai ukuran sedemikian rupaΩ={ω1,…,ωn} p1,…,pn H(p1,…,pn)
Shannon membuktikan bahwa satu-satunya memenuhi ketiga persyaratan memiliki bentuk mana sesuai dengan unit pengukuran informasi yang sewenang-wenang. Ketika , unit ini adalah bit .H k>1k=2
sumber
Pertanyaan ini diajukan dua tahun lalu dan sudah ada banyak jawaban yang luar biasa, tetapi saya ingin menambahkan jawaban saya yang banyak membantu saya.
Pertanyaannya adalah
Logaritma (biasanya didasarkan pada 2) adalah karena Ketimpangan Kraft .
Sebuah intuitif ilustrasi dan visual yang jawaban (seperti yang Anda diperlukan, tetapi lebih khusus untuk Kraft Ketidaksetaraan) yang diartikulasikan dalam makalah ini Kode Pohon, dan Ketimpangan Kraft .
sumber
Berdasarkan pada tidak menerima jawaban yang sudah ada, saya pikir apa yang Anda cari adalah alasan mengapa Shannon menggunakan logaritma dalam formulanya di tempat pertama. Dengan kata lain, filosofi itu.
Penafian : Saya hanya ke bidang ini selama seminggu, datang ke sini karena memiliki pertanyaan seperti Anda . Jika Anda memiliki lebih banyak pengetahuan tentang ini, beri tahu saya.
Saya memiliki pertanyaan ini setelah membaca salah satu makalah Ulanowicz yang paling penting, Meningkatkan Entropi: Panasnya kematian atau keharmonisan abadi? . Ini adalah paragraf yang menjelaskan mengapa rumus memiliki -log (p) alih-alih (1-p):
Sepertinya Shannon memilih logaritma tanpa alasan. Dia hanya "mencium" bahwa dia harus menggunakan logaritma. Mengapa Newton memilih operasi pengali dalam rumusnya F = m * a?
Perhatikan bahwa pada saat itu, dia tidak tahu tentang entropi :
Jadi jawaban saya adalah: tidak ada alasan untuk ini. Dia memilih ini karena hanya berfungsi secara ajaib.
sumber
Entropi didefinisikan sebagai logaritma rata-rata geometrik dari koefisien multinomial yang menyatakan jumlah keadaan di mana suatu sistem dapat berada dalam:
Logaritma muncul dalam rumus setelah menggunakan perkiraan Stirling tentang faktorial (lihat penjelasan ini )
sumber
Log berasal dari derivasi fungsi H yang memenuhi persyaratan alami tertentu. Lihat hal. 3 dtk 2 dari sumber ini:
http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf
Mengingat aksioma, jika Anda melakukan optimasi, Anda mendapatkan fungsi (konstanta upto) yang unik dengan log di dalamnya.
Semua jawaban di atas benar, kecuali mereka menafsirkan log, tetapi tidak menjelaskan sumbernya.
sumber
Saya kira pertanyaan Anda lebih tentang "makna" dari logaritma itu dan mengapa masing-masing komponen berkontribusi pada makna keseluruhan formula, daripada sekadar formalisme yang menunjukkan koherensi definisi dengan persyaratan tertentu.
Gagasan dalam entropi Shannon adalah untuk mengevaluasi informasi pesan dengan melihat FREQUENCY -nya (yaitu ) dan pada GENERALITY -nya (yaitu ):p(x) −log(p(x))
Istilah pertama adalah tentang frekuensi, adalah tentang generalitasnya.p(x) −log(p(x))
Mulai sekarang, saya akan membahas bagaimana GENERALITY memengaruhi formula entropi akhir.
Jadi, kita dapat mendefinisikan seberapa umum (mis. Hujan / bukan hujan) atau spesifik (mis. Hujan ligth / rata-rata / hujan sangat berat) adalah pesan berdasarkan jumlah bit yang diperlukan untuk menyandikannya:log2(x)=number_of_bits_to_encode_the_messages
Sekarang, duduk, rileks, dan lihat betapa indahnya Entropi Shannon melakukan trik: didasarkan pada asumsi (masuk akal) bahwa pesan yang lebih umum, akibatnya, lebih FREQUENT.
Misalnya, saya akan mengatakan bahwa hujan akan turun baik jika hujan rata-rata, hujan deras atau sangat deras. Dengan demikian, ia mengusulkan untuk menyandikan GENERALITAS pesan berdasarkan seberapa SERING mereka ... dan begitulah:
dengan frekuensi pesan .N x
Persamaan tersebut dapat diartikan sebagai: pesan langka akan memiliki penyandian yang lebih lama karena mereka kurang umum, sehingga mereka membutuhkan lebih banyak bit untuk dikodekan dan kurang informatif. Oleh karena itu, memiliki pesan yang lebih spesifik dan langka akan lebih berkontribusi pada entropi daripada memiliki banyak pesan umum dan sering.
Dalam formulasi akhir, kami ingin mempertimbangkan dua aspek. Yang pertama, , adalah bahwa pesan yang sering lebih mudah diprediksi, dan dari perspektif ini kurang informatif (yaitu penyandian yang lebih panjang berarti entropi yang lebih tinggi). Yang kedua, , adalah bahwa pesan yang sering juga bersifat umum, dan dari perspektif ini lebih informatif (yaitu penyandian yang lebih pendek berarti entropi yang lebih rendah).p(x) −log(p(x))
Entropi tertinggi adalah ketika kita memiliki sistem dengan banyak pesan langka dan spesifik. Entropi terendah dengan pesan umum dan sering. Di antaranya, kami memiliki spektrum sistem yang setara dengan entropi yang mungkin memiliki pesan langka dan umum atau pesan yang sering tetapi spesifik.
sumber
Saya rasa tidak mungkin memberikan jawaban universal "intuitif" kepada Anda. Saya akan memberi Anda jawaban yang intuitif untuk beberapa orang, seperti fisikawan. Logaritma ada untuk mendapatkan energi rata-rata dari sistem. Inilah detailnya.
Shannon menggunakan kata " entropi " karena ia mengadaptasi konsep dari mekanika statistik . Dalam mekanika statistik ada distribusi mani dinamai Boltzmann. Menariknya, ini merupakan distribusi penting sekarang dalam pembelajaran mesin!
Distribusi Boltzmann dapat ditulis sebagai di mana adalah konstanta, dan adalah energi dari sistem dalam keadaan dari ruang keadaan . Dalam termodinamika klasik, , di mana adalah koordinat dan momentum partikel. Ini adalah fungsi probabilitas yang tepat ketika konstanta dipilih dengan benar, yaitu . Juga, Anda mungkin merasa menarik bahwa sesuai dengan suhu sistem.P=ea−Eb a,b E dV V dV=dpdx x,p a,b ∫VPdV=1 b
Sekarang, perhatikan bagaimana , yaitu log probabilitas linear (proporsional) terhadap energi. Sekarang, Anda dapat melihat bahwa ekspresi berikut pada dasarnya adalah nilai energi yang diharapkan dari sistem: Inilah yang dilakukan Gibbs.lnP∼E S≡−∫VPlnPdV=<E>
Jadi, Shannon mengambil benda ini dan memutuskannya sebagai dan menyebutnya "entropi," dan kami menyebutnya "entropi Shannon." Tidak ada konsep energi lagi di sini, tapi mungkin Anda bisa anti-log probabilitas negara dan menyebutnya energi negara?η=−∑iPilnPi e - P ie−Pi
Apakah ini cukup intuitif untuk Anda? Ini untuk saya, tetapi saya adalah seorang ahli fisika teoretis di kehidupan lampau. Juga, Anda dapat pergi ke tingkat intuisi yang lebih dalam dengan menghubungkan ke konsep termodinamika yang lebih tua seperti suhu dan karya Boltzmann dan Clausius.
sumber