Saya mencoba mengukur sekarang banyak informasi yang tidak berlebihan (aktual) yang terkandung dalam file saya. Ada yang menyebut ini jumlah entropi.
Tentu saja ada standar p (x) log {p (x)}, tapi saya pikir Shannon hanya mempertimbangkannya dari sudut pandang transmisi melalui saluran. Karena itu rumus membutuhkan ukuran blok (misalnya dalam bit, 8 biasanya). Untuk file besar, perhitungan ini cukup berguna, mengabaikan korelasi jarak pendek ke jarak jauh antara simbol.
Ada metode pohon biner dan Ziv-Lempel, tetapi ini sifatnya sangat akademis.
Kompresibilitas juga dianggap sebagai ukuran entropi, tetapi tampaknya tidak ada batas yang lebih rendah untuk tingkat kompresi. Untuk file saya hiss.wav,
- original hiss.wav = 5.2 MB
- entropi melalui rumus Shannon = 4,6 MB
- hiss.zip = 4,6 MB
- hiss.7z = 4.2 MB
- hiss.wav.fp8 = 3.3 MB
Apakah ada beberapa metode yang masuk akal untuk mengukur berapa banyak entropi yang ada dalam hiss.wav?
Jawaban:
Entropi adalah fitur dari variabel acak . File yang diberikan tidak memiliki entropi, karena konstan. Entropi masuk akal dalam banyak situasi di mana tidak ada saluran, dan Anda dapat menerapkannya pada ansambel acak, misalnya, file WAV, yang dihasilkan dari sumber tertentu. Dalam hal ini, Anda adalah seluruh file WAV.x
gzip
Karena hasil Lempel dan Ziv ini, entropi sumber dapat diperkirakan dengan mengompresi urutan sampel yang panjang menggunakan algoritma Lempel-Ziv. Ini tidak memperkirakan entropi sampel spesifik, yang bukan konsep yang terdefinisi dengan baik (urutan konstan memiliki nol entropi), melainkan entropi dari sumber yang menghasilkannya.
Konsep terkait adalah entropi algoritmik , juga dikenal sebagai kompleksitas Kolmogorov . Ini adalah panjang dari program terpendek yang menghasilkan file Anda. Kuantitas ini masuk akal untuk file individual. Dalam kasus file yang dihasilkan oleh sumber acak, teorema Lempel-Ziv menunjukkan bahwa entropi algoritme file dibatasi, dengan probabilitas tinggi, oleh entropi Shannon-nya. Sayangnya, entropi algoritmik tidak dapat dihitung, jadi ini lebih merupakan konsep teoretis.
Untuk melengkapi gambar, saya sarankan membaca makalah Shannon tentang Prediksi dan entropi bahasa Inggris yang dicetak untuk pendekatan yang berbeda untuk memperkirakan entropi sumber.
sumber