Apa itu entropi empiris?

19

Dalam definisi set bersama (dalam "Elemen Teori Informasi", bab 7.6, hal. 195), kita menggunakan

np(xn)= n i = 1 p(xi)

-1ncatatanhal(xn)
sebagai entropi empiris dari sebuah -berikutnya dengan . Saya tidak pernah menemukan terminologi ini sebelumnya. Itu tidak didefinisikan secara eksplisit di mana saja sesuai dengan indeks buku ini.nhal(xn)=saya=1nhal(xsaya)

Pertanyaan saya pada dasarnya adalah: Mengapa entropi empiris tidak mana adalah distribusi empiris?p ( x )-xhal^(x)catatan(hal^(x))hal^(x)

Apa perbedaan dan persamaan yang paling menarik antara kedua formula ini? (dalam hal properti yang mereka bagikan / tidak bagikan).

blubb
sumber
Bukankah kedua ekspresi itu secara aljabar sama?
whuber
1
@whuber: Tidak, mereka jumlah yang berbeda, dengan tujuan yang berbeda, saya percaya. Perhatikan bahwa yang pertama menggunakan ukuran true diasumsikan dikenal sebagai apriori. Yang kedua tidak. hal
kardinal
3
Yang pertama berkaitan dengan akumulasi entropi dari waktu ke waktu dan bagaimana hal itu dibandingkan dengan entropi sebenarnya dari sistem. SLLN dan CLT memberi tahu banyak tentang bagaimana perilakunya. Yang kedua berkaitan dengan memperkirakan entropi dari data dan beberapa propertinya juga dapat diperoleh melalui dua alat yang sama yang baru saja disebutkan. Tapi, sedangkan yang pertama tidak bias, yang kedua tidak di bawah . Saya dapat mengisi beberapa detail jika itu akan membantu. hal
kardinal
1
@ cardinal: Jika Anda akan memberikan komentar di atas sebagai jawaban (mungkin juga menjelaskan apa itu SLLN dan CLT? - Saya tidak tahu ini) Saya dengan senang hati akan
mendukung
Oke, saya akan coba posting lagi nanti. Sementara itu, SLLN = "Hukum angka besar yang kuat" dan CLT = "teorema batas pusat". Ini adalah singkatan yang cukup standar yang kemungkinan akan Anda temui lagi. Bersulang. :)
kardinal

Jawaban:

16

Jika data , yaitu, n -sequence dari ruang sampel X , probabilitas titik empiris p ( x ) = 1xn=x1...xnnX untukxX. Di siniδx(xi)adalah satu jikaxi=xdan nol sebaliknya. Artinya, p (x)adalah frekuensi relatifxdi urutan diamati. Theentropidari distribusi probabilitas yang diberikan oleh probabilitas titik empiris adalah H( p )=-Σ

hal^(x)=1n|{sayaxsaya=x}|=1nsaya=1nδx(xsaya)
xXδx(xsaya)xsaya=xhal^(x)x Identitas kedua mengikuti dengan mempertukarkan dua jumlah dan mencatat bahwaΣx X δx(xi)log p (x)=log p (xi). Dari sini kita melihat bahwa H( p )=-1
H(hal^)=-xXhal^(x)catatanhal^(x)=-xX1nsaya=1nδx(xsaya)catatanhal^(x)=-1nsaya=1ncatatanhal^(xsaya).
xXδx(xsaya)catatanhal^(x)=catatanhal^(xsaya).
dengan p (xn)=Π n i = 1 p (xi)dan menggunakan terminologi dari pertanyaan ini adalah entropi empiris daridistribusi probabilitas empiris. Seperti yang ditunjukkan oleh @ cardinal dalam komentar,-1
H(hal^)=-1ncatatanhal^(xn)
hal^(xn)=saya=1nhal^(xsaya)adalah entropi empiris dari distribusi probabilitas yang diberikan dengan probabilitas titikp.-1ncatatanhal(xn)hal
NRH
sumber
3
(+1) Ini memberikan ilustrasi yang bagus tentang apa yang Cover dan Thomas sebut sebagai "karakter referensial diri yang aneh" dari entropi. Namun, saya tidak yakin jawabannya benar-benar mengatasi (secara langsung) kekhawatiran OP yang sebenarnya. :)
kardinal
@ cardinal, saya tahu, dan jawabannya hanya komentar panjang untuk membuat poin khusus ini. Saya tidak ingin mengulangi poin Anda.
NRH
1
Anda seharusnya tidak merasa tidak enak atau ragu untuk mengirim jawaban Anda sendiri termasuk ekspansi pada komentar saya atau orang lain. Saya sangat lambat dan buruk dalam memposting jawaban, dan tidak akan pernah tersinggung jika Anda atau orang lain memposting jawaban yang memasukkan aspek-aspek yang sebelumnya mungkin saya komentari. Justru sebaliknya, sebenarnya. Bersulang.
kardinal
7

Entropi didefinisikan untuk distribusi probabilitas. Ketika Anda tidak memiliki satu, tetapi hanya data, dan pasang estimator naif dari distribusi probabilitas, Anda mendapatkan entropi empiris. Ini paling mudah untuk distribusi diskrit (multinomial), seperti yang ditunjukkan pada jawaban lain, tetapi juga dapat dilakukan untuk distribusi lain dengan binning, dll.

Masalah dengan entropi empiris adalah bahwa ia bias untuk sampel kecil. Estimasi naif dari distribusi probabilitas menunjukkan variasi tambahan karena kebisingan pengambilan sampel. Tentu saja seseorang dapat menggunakan estimator yang lebih baik, misalnya, prior yang cocok untuk parameter multinomial, tetapi mendapatkannya benar-benar tidak bias tidaklah mudah.

Di atas berlaku untuk distribusi bersyarat juga. Selain itu, semuanya relatif terhadap binning (atau kernelisasi), jadi Anda sebenarnya memiliki semacam entropi diferensial.

scellus
sumber
3
Kita harus berhati-hati dengan apa yang kita sebut sebagai entropi empiris di sini. Perhatikan bahwa penaksir plug-in selalu bias rendah untuk semua ukuran sampel, meskipun bias akan berkurang dengan bertambahnya ukuran sampel. Ini tidak hanya sulit untuk mendapatkan penduga yang tidak bias untuk entropi, tetapi agak tidak mungkin dalam kasus umum. Ada penelitian yang cukup intens di bidang ini selama beberapa tahun terakhir, terutama dalam literatur neuroscience. Sebenarnya, ada banyak hasil negatif.
kardinal