Interpretasi statistik dari Distribusi Entropi Maksimum

23

Saya telah menggunakan prinsip entropi maksimum untuk membenarkan penggunaan beberapa distribusi di berbagai pengaturan; akan tetapi, saya belum dapat merumuskan interpretasi statistik, sebagai lawan dari teori informasi, dari entropi maksimum. Dengan kata lain, apa yang memaksimumkan entropi menyiratkan tentang sifat statistik distribusi?

Adakah yang bertemu atau mungkin menemukan diri Anda interpretasi statistik maks. distribusi entropi yang tidak menarik bagi informasi, tetapi hanya pada konsep probabilistik?

Sebagai contoh interpretasi seperti itu (tidak harus benar): "Untuk interval panjang sewenang-wenang L pada domain RV (dengan asumsi 1-d kontinu untuk kesederhanaan), probabilitas maksimum yang dapat terkandung dalam interval ini diminimalkan oleh distribusi entropi maksimum. "

Jadi, Anda lihat tidak ada pembicaraan tentang "keinformatifan" atau ide-ide lain yang lebih filosofis, hanya implikasi probabilistik.

Annika
sumber
3
Saya pikir Anda harus lebih spesifik tentang apa yang Anda cari: entropi adalah ukuran "statistik" sebagai varians dll. Sehingga distribusi maksimum entropi memaksimalkan entropi adalah deskripsi statistik yang sangat baik. Jadi menurut saya Anda harus pergi ke luar statistik untuk datang dengan "pembenaran"
seanv507
1
Seanv: Saya setuju bahwa entropi, sebagai fungsi statistik, sama "statistik" dengan varians, nilai yang diharapkan, condong, dll. Namun, menggunakan deviasi rata-rata dan standar sebagai contoh, ini memiliki interpretasi probabilitas murni melalui teorema Markov dan Chebyshev dan akhirnya dalam salah satu dari sejumlah teorema batas pusat dan juga secara intuitif sebagai jumlah jangka panjang (untuk mean) dan kesalahan RMS (untuk standar deviasi). Saya mungkin harus menyusun kembali pertanyaan saya untuk membaca "Interpretasi probabilistik dari distribusi entropi maksimum".
Annika
1
Annika, distribusi entropi maksimum memiliki interpretasi berikut: Jika adalah variabel acak iid, maka probalitity kondisional sebagai mana adalah distribusi entropi maksimum dari set . Lihat juga ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1P ( | X 1 + + X n = n a ) P ( ) n P { P : E P X = a }X1,X2,...P(|X1++Xn=nSebuah)P()nP{P:EPX=Sebuah}
Ashok
2
Terima kasih Ashok. Aku akan melihat kertas itu lebih terinci. Ini terlihat seperti kasus spesifik memaksimalkan entropi untuk makna yang diberikan, tapi saya masih penasaran seperti apa operasi memaksimalkan entropi Shanon lakukan secara matematis sehingga hasil di atas berlaku? Apakah secara efektif meminimalkan kepadatan maksimum atau konsentrasi rata-rata ukuran probabilitas?
Annika

Jawaban:

19

Ini bukan bidang saya, jadi beberapa renungan:

Saya akan mulai dengan konsep kejutan . Apa artinya terkejut? Biasanya, itu berarti sesuatu terjadi yang tidak diharapkan terjadi. Jadi, kejutan itu konsep probabilistik dan dapat dijelaskan seperti itu (IJ Good telah menulis tentang itu). Lihat juga Wikipedia dan Kejutan Bayesian .

Ambil kasus tertentu dari situasi ya / tidak, sesuatu dapat terjadi atau tidak. Ini terjadi dengan probabilitas p . Katakanlah, jika p = 0,9 dan itu terjadi, Anda tidak benar-benar terkejut. Jika p=0.05 dan itu terjadi, Anda agak terkejut. Dan jika p=0.0000001 dan itu terjadi, Anda benar-benar terkejut. Jadi, ukuran alami dari "nilai kejutan dalam hasil yang diamati" adalah beberapa fungsi (anti) monoton dari probabilitas apa yang terjadi. Tampaknya wajar (dan berfungsi dengan baik ...) untuk mengambil logaritma probabilitas dari apa yang terjadi, dan kemudian kita membuang tanda minus untuk mendapatkan angka positif. Juga, dengan mengambil logaritma kami berkonsentrasi pada urutan kejutan, dan, dalam praktiknya, probabilitas sering hanya diketahui sesuai pesanan, kurang lebih .

Jadi, kita mendefinisikan

Surprise(A)=logp(A)
mana A adalah hasil yang diamati, dan p(A) adalah probabilitasnya.

Sekarang kita bisa bertanya apa kejutan yang diharapkan . Biarkan X menjadi variabel acak Bernoulli dengan probabilitas hal . Ini memiliki dua kemungkinan hasil, 0 dan 1. Nilai kejutan masing-masing adalah

Mengherankan(0)=-log(1-hal)Mengherankan(1)=-loghal
jadi kejutan ketika mengamatiXsendiri merupakan variabel acak dengan harapan
hal-loghal+(1-hal)-log(1-hal)
dan itu adalah --- mengejutkan! --- entropiX! Jadi entropidiharapkan kejutan!

Sekarang, pertanyaan ini adalah tentang entropi maksimum . Mengapa ada orang yang ingin menggunakan distribusi entropi maksimum? Yah, itu pasti karena mereka ingin terkejut secara maksimal! Mengapa ada yang mau itu?

Cara untuk melihatnya adalah sebagai berikut: Anda ingin belajar tentang sesuatu, dan untuk tujuan itu Anda menyiapkan beberapa pengalaman belajar (atau percobaan ...). Jika Anda sudah tahu segalanya tentang topik ini, Anda dapat selalu memprediksi dengan sempurna, jadi jangan pernah terkejut. Maka Anda tidak pernah mendapatkan pengalaman baru, jadi jangan belajar sesuatu yang baru (tapi Anda sudah tahu segalanya --- tidak ada yang bisa dipelajari, jadi tidak apa-apa). Dalam situasi yang lebih khas yang membuat Anda bingung, tidak dapat memprediksi dengan sempurna, ada kesempatan belajar! Ini mengarah pada gagasan bahwa kita dapat mengukur "jumlah pembelajaran yang mungkin" dengan kejutan yang diharapkan , yaitu entropi. Jadi, memaksimalkan entropi tidak lain adalah memaksimalkan kesempatan untuk belajar. Itu terdengar seperti konsep yang berguna, yang dapat berguna dalam merancang eksperimen dan hal-hal semacam itu.

Contoh puitis adalah yang terkenal

Jika Anda tahu machine, dann er adalah erzählen ...

Satu contoh praktis: Anda ingin merancang sistem untuk pengujian online (artinya online bahwa tidak semua orang mendapatkan pertanyaan yang sama, pertanyaan dipilih secara dinamis tergantung pada jawaban sebelumnya, sehingga dioptimalkan, dalam beberapa cara, untuk setiap orang).

Jika Anda membuat pertanyaan yang terlalu sulit, sehingga tidak pernah dikuasai, Anda tidak belajar apa pun. Itu menunjukkan Anda harus menurunkan tingkat kesulitan. Apa tingkat kesulitan optimal, yaitu tingkat kesulitan yang memaksimalkan laju pembelajaran? Biarkan probabilitas jawaban yang benar menjadi hal . Kami ingin nilai hal yang memaksimalkan entropi Bernoulli. Tapi itu p=0.5 . Jadi, Anda bertujuan untuk menyatakan pertanyaan di mana kemungkinan mendapatkan jawaban yang benar (dari orang itu) adalah 0,5.

Kemudian kasus variabel acak kontinu X . Bagaimana kita bisa terkejut dengan mengamati X ? Probabilitas dari setiap hasil tertentu {X=x} adalah nol, definisi logp tidak berguna. Tetapi kita akan terkejut jika probabilitas mengamati sesuatu seperti x kecil, yaitu, jika nilai fungsi kerapatan f(x) kecil (dengan asumsi f adalah kontinu). Itu mengarah pada definisi

Mengherankan(x)=-logf(x)
Dengan definisi itu, kejutan yang diharapkan dari mengamati X adalah
E{-logf(X)}=-f(x)logf(x)dx
yaitu, kejutan diharapkan dari mengamatiX adalah entropi diferensial dariX . Ini juga dapat dilihat sebagai kemungkinan loglikel yang diharapkan.

X

kjetil b halvorsen
sumber
5
Ini adalah salah satu penjelasan terbaik dan intuitif dari entropi maksimum yang pernah saya lihat!
Vladislavs Dovgalecs
3

Meskipun bukan ahli dalam teori informasi dan entropi maksimum, saya sudah tertarik untuk sementara waktu.

Entropi adalah ukuran dari ketidakpastian distribusi probabilitas yang diturunkan menurut serangkaian kriteria. Ini dan langkah-langkah terkait menggambarkan distribusi probabilitas. Dan, itu adalah ukuran unik yang memenuhi kriteria tersebut. Ini mirip dengan kasus probabilitas itu sendiri, yang sebagaimana dijelaskan dengan indah dalam Jaynes (2003), adalah ukuran unik yang memenuhi beberapa kriteria yang sangat diinginkan untuk ukuran ketidakpastian pernyataan logis.

Ukuran lain apa pun dari ketidakpastian distribusi probabilitas yang berbeda dari entropi harus melanggar satu atau lebih kriteria yang digunakan untuk mendefinisikan entropi (jika tidak maka harus entropi). Jadi, jika Anda memiliki beberapa pernyataan umum dalam hal probabilitas yang entah bagaimana memberikan hasil yang sama dengan entropi maksimum ... maka itu akan menjadi entropi maksimum!

Hal terdekat yang dapat saya temukan pada pernyataan probabilitas tentang distribusi entropi maksimum sejauh ini adalah teorema konsentrasi Jaynes . Anda dapat menemukannya dengan jelas dijelaskan dalam Kapur dan Kesavan (1992). Berikut ini adalah pernyataan ulang yang longgar:

halnhalsayasaya=1,...,nmm+1

Sm+1Smaks

N

2N(Smaks-S)χn-m-12.

(Smaks-χn-m-12(0,95)2N,Smaks).
Smaks-χn-m-12(0,95)2N

ET Jaynes (2003) Teori Probabilitas: Logika Ilmu Pengetahuan. Cambridge University Press.

JN Kapur dan .K. Kesavan (1992) Prinsip Optimalisasi Entropi dengan Aplikasi. Academic Press, Inc.

jvbraun
sumber
3

σ

"Oleh karena itu, dalam interpretasi ini teorema limit pusat dasar mengungkapkan fakta bahwa per simbol entropi jumlah variabel acak independen dengan rata-rata nol dan varians umum cenderung maksimum. Ini tampaknya sangat masuk akal; pada kenyataannya, ini adalah ekspresi dari hukum termodinamika kedua, yang dipandang Eddington memegang 'posisi tertinggi di antara hukum-hukum Alam'. "

Saya belum mengeksplorasi implikasi dari ini, saya juga tidak yakin saya sepenuhnya mengerti mereka.

[edit: kesalahan ketik tetap]

F. Tusell
sumber