Dalam definisi set bersama (dalam "Elemen Teori Informasi", bab 7.6, hal. 195), kita menggunakan
np(xn)=∏ n i = 1 p(xi)
sebagai entropi empiris dari sebuah -berikutnya dengan . Saya tidak pernah menemukan terminologi ini sebelumnya. Itu tidak didefinisikan secara eksplisit di mana saja sesuai dengan indeks buku ini.
Pertanyaan saya pada dasarnya adalah: Mengapa entropi empiris tidak mana adalah distribusi empiris?p ( x )
Apa perbedaan dan persamaan yang paling menarik antara kedua formula ini? (dalam hal properti yang mereka bagikan / tidak bagikan).
information-theory
entropy
blubb
sumber
sumber
Jawaban:
Jika data , yaitu, n -sequence dari ruang sampel X , probabilitas titik empiris p ( x ) = 1xn= x1... xn n X
untukx∈X. Di siniδx(xi)adalah satu jikaxi=xdan nol sebaliknya. Artinya, p (x)adalah frekuensi relatifxdi urutan diamati. Theentropidari distribusi probabilitas yang diberikan oleh probabilitas titik empiris adalah
H( p )=-Σ
sumber
Entropi didefinisikan untuk distribusi probabilitas. Ketika Anda tidak memiliki satu, tetapi hanya data, dan pasang estimator naif dari distribusi probabilitas, Anda mendapatkan entropi empiris. Ini paling mudah untuk distribusi diskrit (multinomial), seperti yang ditunjukkan pada jawaban lain, tetapi juga dapat dilakukan untuk distribusi lain dengan binning, dll.
Masalah dengan entropi empiris adalah bahwa ia bias untuk sampel kecil. Estimasi naif dari distribusi probabilitas menunjukkan variasi tambahan karena kebisingan pengambilan sampel. Tentu saja seseorang dapat menggunakan estimator yang lebih baik, misalnya, prior yang cocok untuk parameter multinomial, tetapi mendapatkannya benar-benar tidak bias tidaklah mudah.
Di atas berlaku untuk distribusi bersyarat juga. Selain itu, semuanya relatif terhadap binning (atau kernelisasi), jadi Anda sebenarnya memiliki semacam entropi diferensial.
sumber