Saya telah menggunakan prinsip entropi maksimum untuk membenarkan penggunaan beberapa distribusi di berbagai pengaturan; akan tetapi, saya belum dapat merumuskan interpretasi statistik, sebagai lawan dari teori informasi, dari entropi maksimum. Dengan kata lain, apa yang memaksimumkan entropi menyiratkan tentang sifat statistik distribusi?
Adakah yang bertemu atau mungkin menemukan diri Anda interpretasi statistik maks. distribusi entropi yang tidak menarik bagi informasi, tetapi hanya pada konsep probabilistik?
Sebagai contoh interpretasi seperti itu (tidak harus benar): "Untuk interval panjang sewenang-wenang L pada domain RV (dengan asumsi 1-d kontinu untuk kesederhanaan), probabilitas maksimum yang dapat terkandung dalam interval ini diminimalkan oleh distribusi entropi maksimum. "
Jadi, Anda lihat tidak ada pembicaraan tentang "keinformatifan" atau ide-ide lain yang lebih filosofis, hanya implikasi probabilistik.
Jawaban:
Ini bukan bidang saya, jadi beberapa renungan:
Saya akan mulai dengan konsep kejutan . Apa artinya terkejut? Biasanya, itu berarti sesuatu terjadi yang tidak diharapkan terjadi. Jadi, kejutan itu konsep probabilistik dan dapat dijelaskan seperti itu (IJ Good telah menulis tentang itu). Lihat juga Wikipedia dan Kejutan Bayesian .
Ambil kasus tertentu dari situasi ya / tidak, sesuatu dapat terjadi atau tidak. Ini terjadi dengan probabilitasp . Katakanlah, jika p = 0,9 dan itu terjadi, Anda tidak benar-benar terkejut. Jika p=0.05 dan itu terjadi, Anda agak terkejut. Dan jika p=0.0000001 dan itu terjadi, Anda benar-benar terkejut. Jadi, ukuran alami dari "nilai kejutan dalam hasil yang diamati" adalah beberapa fungsi (anti) monoton dari probabilitas apa yang terjadi. Tampaknya wajar (dan berfungsi dengan baik ...) untuk mengambil logaritma probabilitas dari apa yang terjadi, dan kemudian kita membuang tanda minus untuk mendapatkan angka positif. Juga, dengan mengambil logaritma kami berkonsentrasi pada urutan kejutan, dan, dalam praktiknya, probabilitas sering hanya diketahui sesuai pesanan, kurang lebih .
Jadi, kita mendefinisikanSurprise(A)=−logp(A)
mana A adalah hasil yang diamati, dan p(A) adalah probabilitasnya.
Sekarang kita bisa bertanya apa kejutan yang diharapkan . BiarkanX menjadi variabel acak Bernoulli dengan probabilitas hal . Ini memiliki dua kemungkinan hasil, 0 dan 1. Nilai kejutan masing-masing adalah
Kejutan ( 0 )Kejutan ( 1 )= - log( 1 - p )= - loghal
jadi kejutan ketika mengamatiX sendiri merupakan variabel acak dengan harapan
p ⋅ - logp + ( 1 - p ) ⋅ - log( 1 - p )
dan itu adalah --- mengejutkan! --- entropiX ! Jadi entropidiharapkan kejutan!
Sekarang, pertanyaan ini adalah tentang entropi maksimum . Mengapa ada orang yang ingin menggunakan distribusi entropi maksimum? Yah, itu pasti karena mereka ingin terkejut secara maksimal! Mengapa ada yang mau itu?
Cara untuk melihatnya adalah sebagai berikut: Anda ingin belajar tentang sesuatu, dan untuk tujuan itu Anda menyiapkan beberapa pengalaman belajar (atau percobaan ...). Jika Anda sudah tahu segalanya tentang topik ini, Anda dapat selalu memprediksi dengan sempurna, jadi jangan pernah terkejut. Maka Anda tidak pernah mendapatkan pengalaman baru, jadi jangan belajar sesuatu yang baru (tapi Anda sudah tahu segalanya --- tidak ada yang bisa dipelajari, jadi tidak apa-apa). Dalam situasi yang lebih khas yang membuat Anda bingung, tidak dapat memprediksi dengan sempurna, ada kesempatan belajar! Ini mengarah pada gagasan bahwa kita dapat mengukur "jumlah pembelajaran yang mungkin" dengan kejutan yang diharapkan , yaitu entropi. Jadi, memaksimalkan entropi tidak lain adalah memaksimalkan kesempatan untuk belajar. Itu terdengar seperti konsep yang berguna, yang dapat berguna dalam merancang eksperimen dan hal-hal semacam itu.
Contoh puitis adalah yang terkenal
Satu contoh praktis: Anda ingin merancang sistem untuk pengujian online (artinya online bahwa tidak semua orang mendapatkan pertanyaan yang sama, pertanyaan dipilih secara dinamis tergantung pada jawaban sebelumnya, sehingga dioptimalkan, dalam beberapa cara, untuk setiap orang).
Jika Anda membuat pertanyaan yang terlalu sulit, sehingga tidak pernah dikuasai, Anda tidak belajar apa pun. Itu menunjukkan Anda harus menurunkan tingkat kesulitan. Apa tingkat kesulitan optimal, yaitu tingkat kesulitan yang memaksimalkan laju pembelajaran? Biarkan probabilitas jawaban yang benar menjadihal . Kami ingin nilai hal yang memaksimalkan entropi Bernoulli. Tapi itu p=0.5 . Jadi, Anda bertujuan untuk menyatakan pertanyaan di mana kemungkinan mendapatkan jawaban yang benar (dari orang itu) adalah 0,5.
Kemudian kasus variabel acak kontinuX . Bagaimana kita bisa terkejut dengan mengamati X ? Probabilitas dari setiap hasil tertentu {X=x} adalah nol, definisi −logp tidak berguna. Tetapi kita akan terkejut jika probabilitas mengamati sesuatu seperti x kecil, yaitu, jika nilai fungsi kerapatan f( x ) kecil (dengan asumsi f adalah kontinu). Itu mengarah pada definisi
Kejutan ( x ) = - logf( x )
Dengan definisi itu, kejutan yang diharapkan dari mengamati X adalah
E{ - logf( X) } = - ∫f( x ) logf( x )dx
yaitu, kejutan diharapkan dari mengamatiX adalah entropi diferensial dariX . Ini juga dapat dilihat sebagai kemungkinan loglikel yang diharapkan.
sumber
Meskipun bukan ahli dalam teori informasi dan entropi maksimum, saya sudah tertarik untuk sementara waktu.
Entropi adalah ukuran dari ketidakpastian distribusi probabilitas yang diturunkan menurut serangkaian kriteria. Ini dan langkah-langkah terkait menggambarkan distribusi probabilitas. Dan, itu adalah ukuran unik yang memenuhi kriteria tersebut. Ini mirip dengan kasus probabilitas itu sendiri, yang sebagaimana dijelaskan dengan indah dalam Jaynes (2003), adalah ukuran unik yang memenuhi beberapa kriteria yang sangat diinginkan untuk ukuran ketidakpastian pernyataan logis.
Ukuran lain apa pun dari ketidakpastian distribusi probabilitas yang berbeda dari entropi harus melanggar satu atau lebih kriteria yang digunakan untuk mendefinisikan entropi (jika tidak maka harus entropi). Jadi, jika Anda memiliki beberapa pernyataan umum dalam hal probabilitas yang entah bagaimana memberikan hasil yang sama dengan entropi maksimum ... maka itu akan menjadi entropi maksimum!
Hal terdekat yang dapat saya temukan pada pernyataan probabilitas tentang distribusi entropi maksimum sejauh ini adalah teorema konsentrasi Jaynes . Anda dapat menemukannya dengan jelas dijelaskan dalam Kapur dan Kesavan (1992). Berikut ini adalah pernyataan ulang yang longgar:
ET Jaynes (2003) Teori Probabilitas: Logika Ilmu Pengetahuan. Cambridge University Press.
JN Kapur dan .K. Kesavan (1992) Prinsip Optimalisasi Entropi dengan Aplikasi. Academic Press, Inc.
sumber
Saya belum mengeksplorasi implikasi dari ini, saya juga tidak yakin saya sepenuhnya mengerti mereka.
[edit: kesalahan ketik tetap]
sumber