Apa yang dikatakan entropi kepada kita?

32

Saya membaca tentang entropi dan mengalami kesulitan mengkonseptualisasikan apa artinya dalam kasus berkelanjutan. Halaman wiki menyatakan sebagai berikut:

Distribusi probabilitas peristiwa, ditambah dengan jumlah informasi setiap peristiwa, membentuk variabel acak yang nilainya diharapkan adalah jumlah rata-rata informasi, atau entropi, yang dihasilkan oleh distribusi ini.

Jadi jika saya menghitung entropi yang terkait dengan distribusi probabilitas yang kontinu, apa yang sebenarnya saya katakan? Mereka memberikan contoh tentang membalik koin, jadi kasing, tetapi jika ada cara intuitif untuk menjelaskan melalui contoh seperti itu dalam kasing kontinu, itu akan bagus!

Jika ini membantu, definisi entropi untuk variabel acak kontinu adalah sebagai berikut:X

mana P ( x ) adalah fungsi distribusi probabilitas.

H(X)=P(x)logbP(x)dx
P(x)

Untuk mencoba dan membuat ini lebih konkret, pertimbangkan kasus , kemudian, menurut Wikipedia , entropinya adalahXGamma(α,β)

H(X)=E[ln(P(X))]=E[αln(β)+ln(Γ(α))+ln(Γ(α))(α1)ln(X)+βX]=αln(β)+ln(Γ(α))+(1α)(ddαln(Γ(α)))

Dan sekarang kita telah menghitung entropi untuk distribusi kontinu (distribusi Gamma) dan jadi jika saya sekarang mengevaluasi ungkapan itu, , diberikan α dan β , apa yang sebenarnya kuantitas katakan kepada saya? H(X)αβ

Ahli Statistik Rusty
sumber
5
(+1) Kutipan itu merujuk pada bagian yang benar-benar tidak menguntungkan. Ini berusaha, dengan cara yang melelahkan dan buram, untuk menggambarkan dan menafsirkan definisi matematika dari entropi. Definisi itu adalah . Hal ini dapat dilihat sebagai harapan log ( f ( X ) ) di mana f adalah pdf dari suatu variabel acak X . Ia mencoba untuk mengkarakterisasi log ( f ( x ) )f(x)log(f(x))dxlog(f(X))fXlog(f(x))sebagai "jumlah informasi" yang terkait dengan angka . x
whuber
5
Layak untuk ditanyakan, karena ada masalah teknis yang rumit namun penting: versi entropi yang terus-menerus tidak cukup menikmati properti yang sama dengan versi diskrit (yang memang memiliki intepretasi intuitif dan alami dalam hal informasi). @Tim AFAIK, utas tentang Matematika itu hanya membahas kasus diskrit .
whuber
1
@RustyStatistician menganggap memberi tahu Anda betapa mengejutkannya hasil x. Anda kemudian menghitung kejutan yang diharapkan. log(f(x))
Adrian
3
Kembali ke referensi teknis @whuber, ini mungkin menarik.
Sean Easter
3
Jika Anda tertarik pada teknis: Entropy adalah berdasarkan pseudo-metrik yang disebut divergensi Kullback-Leibler yang digunakan untuk menggambarkan jarak antara peristiwa dalam ukuran masing-masing, lihat projecteuclid.org/euclid.aoms/1177729694 untuk yang asli ( dan groudbreaking) karya Kullback dan Leibler. Konsep ini juga muncul kembali dalam kriteria pemilihan model seperti AIC dan BIC.
Jeremias K

Jawaban:

31

Entropi memberi tahu Anda seberapa banyak ketidakpastian dalam sistem. Katakanlah Anda sedang mencari kucing, dan Anda tahu bahwa itu ada di suatu tempat antara rumah Anda dan tetangga, yang berjarak 1,6 km. Anak-anak Anda memberi tahu Anda bahwa kemungkinan kucing berada pada jarak dari rumah Anda digambarkan paling baik oleh distribusi beta f ( x ; 2 , 2 ) . Jadi kucing bisa di mana saja antara 0 dan 1, tetapi lebih cenderung berada di tengah, yaitu x m a x = 1 / 2 .x f(x;2,2)xmax=1/2

masukkan deskripsi gambar di sini

Mari kita tancapkan distribusi beta ke persamaan Anda, maka Anda mendapatkan .H=0.125

Selanjutnya, Anda bertanya kepada istri Anda dan dia memberi tahu Anda bahwa distribusi terbaik untuk menggambarkan pengetahuannya tentang kucing Anda adalah distribusi yang seragam. Jika Anda tancapkan ke persamaan entropi Anda, Anda mendapatkan .H=0

Distribusi seragam dan beta memungkinkan kucing berada di antara 0 dan 1 mil dari rumah Anda, tetapi ada lebih banyak ketidakpastian dalam seragam, karena istri Anda benar-benar tidak tahu di mana kucing itu bersembunyi, sementara anak-anak punya ide , mereka pikir itu lebih kemungkinan berada di suatu tempat di tengah. Itu sebabnya entropi Beta lebih rendah dari Uniform.

masukkan deskripsi gambar di sini

Anda dapat mencoba distro lain, mungkin tetangga Anda memberitahu Anda kucing suka berada di dekat salah satu rumah, sehingga distribusi beta-nya dengan . H- nya harus lebih rendah daripada yang seragam lagi, karena Anda mendapat ide tentang di mana mencari kucing. Tebak apakah entropi informasi tetangga Anda lebih tinggi atau lebih rendah daripada anak-anak Anda? Saya akan bertaruh pada anak-anak setiap hari tentang masalah ini.α=β=1/2H

masukkan deskripsi gambar di sini

MEMPERBARUI:

Bagaimana cara kerjanya? Salah satu cara untuk memikirkan ini adalah mulai dengan distribusi yang seragam. Jika Anda setuju bahwa itu adalah yang paling tidak pasti, maka pikirkan untuk mengganggunya. Mari kita lihat kasus diskrit untuk kesederhanaan. Ambil dari satu titik dan tambahkan ke yang lain seperti berikut: p i = p - Δ p p j = p + Δ pΔp

pi=pΔp
pj=p+Δp

HH=pilnpipiln(piΔp)+pjlnpjpjln(pj+Δp)
=plnppln[p(1Δp/p)]+plnppln[p(1+Δp/p)]
=ln(1Δp/p)ln(1+Δp/p)>0

nnnn=1n=13

masukkan deskripsi gambar di sini

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'
Aksakal
sumber
1
(+1) Saya akan menunggu untuk melihat interpretasi orang lain tetapi saya sangat suka yang ini. Jadi sepertinya bisa memanfaatkan entropi sebagai ukuran kepastian yang Anda butuhkan untuk membandingkannya dengan distribusi lain? Yaitu, nomor itu sendiri tidak memberi tahu Anda banyak?
RustyStatistician
1
@RustyStatistician, saya tidak akan mengatakan nilai absolutnya sama sekali tidak berarti., Tapi ya, ini paling berguna ketika digunakan untuk membandingkan kondisi sistem. Cara mudah untuk menginternalisasi entropi adalah dengan menganggapnya sebagai ukuran ketidakpastian
Aksakal
Masalah dengan jawaban ini adalah bahwa istilah "ketidakpastian" dibiarkan tidak terdefinisi.
kjetil b halvorsen
1
istilah ini dibiarkan tidak pasti
Aksakal
Ini sangat bagus.
Astrid
1

Saya ingin menambahkan jawaban langsung untuk pertanyaan ini:

apa yang sebenarnya disampaikan kuantitas itu kepada saya?

log1p(x)

Elog1p(x)=p(x)log1p(x)

Lerner Zhang
sumber