Saya tahu bahwa entropi adalah ukuran keacakan dari suatu proses / variabel dan dapat didefinisikan sebagai berikut. untuk variabel acak set : - . Dalam buku tentang Entropi dan Teori Informasi oleh MacKay, ia memberikan pernyataan ini dalam Ch2
Entropi dimaksimalkan jika p seragam.
Secara intuitif, saya bisa memahaminya, seperti jika semua titik data dalam set dipilih dengan probabilitas yang sama ( menjadi kardinalitas set ), maka keacakan atau entropi meningkat. Tetapi jika kita tahu bahwa beberapa titik di himpunan akan terjadi dengan probabilitas lebih dari yang lain (katakanlah dalam kasus distribusi normal, di mana konsentrasi maksimum titik data berada di sekitar rata-rata dan area standar deviasi kecil di sekitarnya, maka keacakan atau entropi harus berkurang.
Tetapi apakah ada bukti matematis untuk ini? Seperti persamaan untuk saya membedakannya sehubungan dengan dan mengaturnya ke 0 atau sesuatu seperti itu.
Di samping catatan, apakah ada hubungan antara entropi yang terjadi teori informasi dan perhitungan entropi dalam kimia (termodinamika)?
sumber
Jawaban:
Secara heuristik, fungsi kepadatan probabilitas pada dengan entropi maksimum ternyata adalah yang sesuai dengan jumlah pengetahuan paling sedikit dari , dengan kata lain distribusi Seragam.{x1,x2,..,.xn} {x1,x2,..,.xn}
Sekarang, untuk bukti yang lebih formal pertimbangkan hal berikut:
Fungsi kepadatan probabilitas pada adalah sekumpulan bilangan real non-negatif yang menambahkan hingga 1. Entropi adalah fungsi kontinu dari -tuple , dan titik-titik ini terletak pada subset kompak dari , jadi ada -tuple di mana entropi dimaksimalkan. Kami ingin menunjukkan ini terjadi pada dan tidak ada tempat lain.{x1,x2,..,.xn} p1,...,pn n (p1,...,pn) Rn ( 1 / n , . . . , 1 / n )n (1/n,...,1/n)
Misalkan tidak semuanya sama, katakan . (Jelas ) Kami akan menemukan kepadatan probabilitas baru dengan entropi yang lebih tinggi. Ini kemudian mengikuti, karena entropi dimaksimalkan pada beberapa -tuple, entropi itu secara unik dimaksimalkan pada -tuple dengan untuk semua .p 1 < p 2 n ≠ 1 n n p i = 1 / n ipj p1<p2 n≠1 n n pi=1/n i
Sejak , untuk positif kecil, kami memiliki . Entropi minus entropi dari sama dengan ε p 1 + ε < p 2 - ε { p 1 + ε , p 2 - ε , p 3 , . . . , P n } { p 1 , p 2 , p 3 , . . . , p n }p1<p2 ε p1+ε<p2−ε {p1+ε,p2−ε,p3,...,pn} {p1,p2,p3,...,pn}
ε-p1log(1+ε
Mengingat bahwa untuk kecil , persamaan di atas adalah yang positif ketika cukup kecil sejak .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log(1+x)=x+O(x2) x
Bukti yang kurang ketat adalah sebagai berikut:
Pertimbangkan dulu Lemma berikut:
Biarkan dan kontinu fungsi kepadatan probabilitas pada interval di bilangan real, dengan dan pada . Kami memiliki jika kedua integral ada. Selain itu, ada persamaan jika dan hanya jika untuk semua .q ( x ) I p ≥ 0 q > 0 I - ∫ I p log p d x ≤ - ∫ Saya p log q d xp(x) q(x) I p≥0 q>0 I
Sekarang, misalkan menjadi fungsi kerapatan probabilitas pada , dengan . Membiarkan untuk semua , yang merupakan entropi . Karena itu, kata kami, , dengan kesetaraan jika dan hanya jika seragam.p {x1,...,xn} pi=p(xi) qi=1/n i
Juga, wikipedia juga memiliki diskusi singkat tentang ini: wiki
sumber
Entropi dalam fisika dan teori informasi tidak berhubungan. Mereka lebih berbeda dari namanya, namun jelas ada hubungan di antara mereka. Tujuan dari metrik entropi adalah untuk mengukur jumlah informasi. Lihat jawaban saya dengan grafik di sini untuk menunjukkan bagaimana perubahan entropi dari distribusi seragam ke yang berpunuk.
Alasan mengapa entropi dimaksimalkan untuk distribusi yang seragam adalah karena itu dirancang demikian! Ya, kami sedang membangun ukuran untuk kurangnya informasi sehingga kami ingin menetapkan nilai tertinggi untuk distribusi yang paling tidak informatif.
Contoh. Saya bertanya, " Bung, di mana mobil saya ?" Jawaban Anda adalah "di suatu tempat di AS antara Samudra Atlantik dan Pasifik." Ini adalah contoh distribusi seragam. Mobil saya bisa berada di mana saja di AS. Saya tidak mendapatkan banyak informasi dari jawaban ini.
Namun, jika Anda mengatakan kepada saya "Saya melihat mobil Anda satu jam yang lalu di Rute 66 menuju dari Washington, DC" - ini bukan distribusi seragam lagi. Mobil itu lebih cenderung berada dalam jarak 60 mil dari DC, daripada di mana pun di dekat Los Angeles. Jelas ada lebih banyak informasi di sini.
Oleh karena itu, ukuran kita harus memiliki entropi tinggi untuk jawaban pertama dan lebih rendah untuk jawaban kedua. Seragam tersebut haruslah distribusi yang paling tidak informatif, pada dasarnya jawaban "Saya tidak tahu".
sumber
Argumen matematis didasarkan pada ketidaksetaraan Jensen untuk fungsi cekung. Yaitu, jika adalah fungsi cekung pada dan adalah titik dalam , maka:f(x) [a,b] y1,…yn [a,b] n⋅f(y1+…ynn)≥f(y1)+…+f(yn)
Terapkan ini untuk fungsi cekung dan Jensen ketidaksetaraan untuk dan Anda memiliki buktinya. Perhatikan bahwa mendefinisikan distribusi probabilitas diskrit, jadi jumlahnya adalah 1. Apa yang Anda dapatkan adalah , dengan kesetaraan untuk distribusi seragam.f(x)=−xlog(x) yi=p(xi) p(xi) log(n)≥∑ni=1−p(xi)log(p(xi))
sumber
Ya ada! Anda dapat melihat karya Jaynes dan banyak lainnya mengikuti karyanya (seperti di sini dan di sini , misalnya).
Tetapi gagasan utamanya adalah bahwa mekanika statistik (dan bidang lain dalam sains juga) dapat dipandang sebagai kesimpulan yang kita lakukan tentang dunia .
Sebagai bacaan lebih lanjut, saya akan merekomendasikan buku Ariel Caticha tentang topik ini.
sumber
Penjelasan intuitif:
Jika kita menempatkan lebih banyak massa probabilitas ke dalam satu peristiwa variabel acak, kita harus mengambil beberapa dari peristiwa lain. Yang satu akan memiliki lebih sedikit konten informasi dan lebih banyak berat, yang lain lebih banyak konten informasi dan lebih sedikit berat. Oleh karena itu entropi yang menjadi konten informasi yang diharapkan akan turun karena acara dengan konten informasi yang lebih rendah akan lebih berat.
Sebagai kasus ekstrim bayangkan satu peristiwa mendapatkan probabilitas hampir satu, maka peristiwa lainnya akan memiliki probabilitas gabungan hampir nol dan entropi akan sangat rendah.
sumber
Gagasan utama: ambil turunan parsial dari setiap , atur semuanya menjadi nol, pecahkan sistem persamaan linear.pi
Ambil sejumlah terbatas mana sebagai contoh. Nyatakan .pi i=1,...,n q=1−∑n−1i=0pi
sumber