Saya mengerti bahwa metode kompresi dapat dibagi menjadi dua set utama:
- global
- lokal
Set pertama berfungsi terlepas dari data yang sedang diproses, yaitu, mereka tidak bergantung pada karakteristik data apa pun, dan dengan demikian tidak perlu melakukan preprocessing pada bagian mana pun dari dataset (sebelum kompresi itu sendiri). Di sisi lain, metode lokal menganalisis data, mengekstraksi informasi yang biasanya meningkatkan tingkat kompresi.
Ketika membaca tentang beberapa metode ini, saya perhatikan bahwa metode unary tidak universal , yang mengejutkan saya karena saya pikir "globalitas" dan "universalitas" mengacu pada hal yang sama. Metode unary tidak bergantung pada karakteristik data untuk menghasilkan pengkodeannya (yaitu, itu adalah metode global), dan karena itu harus global / universal, bukan?
Pertanyaan utama saya:
- Apa perbedaan antara metode universal dan global?
- Bukankah klasifikasi ini sinonim?
sumber
Jawaban:
Pertimbangkan potongan data berikut:
1010010110100101
Universal - ini adalah algoritma kompresi generik yang merupakan data agnostik. Versi mentah enkode run length akan termasuk dalam kategori ini. Keuntungannya adalah kompres dan dekompresi sangat cepat. Kelemahannya adalah mungkin sangat tidak efektif berdasarkan data yang akan dikompres.
1111111111111111 -> 16 1 (lucky case)
1010010110100101 -> 1010010110100101 (kasing sial)
Lokal - metode ini akan mempertimbangkan segmen yang lebih kecil dari panjang tetap, katakanlah 4, cari pola dan kompres mereka. Misalnya. Data ini hanya berisi dua jenis pola ini - 1010 dan 0101. Pola-pola ini dapat direpresentasikan sebagai 0s dan 1s dan keseluruhan data akan berupa tabel yang mewakili pemetaan, dan sesuatu seperti 0101. Ini memiliki potensi untuk menghasilkan jauh lebih kecil ukuran terkompresi.
1010010110100101 -> 1010 0101 1010 0101 -> 0101 (0 = 1010,1 = 0101)
Global - metode ini akan melihat seluruh data dan menemukan pola yang optimal / jauh lebih baik untuk mengompres data. Contoh data berisi hanya satu pola 10100101 dan menyatakannya sebagai 00 bersama dengan tabel pemetaan. Ini memiliki potensi untuk mendapatkan ukuran terkompresi sekecil mungkin, tetapi juga secara komputasi paling berat.
1010010110100101 -> 10100101 10100101 -> 00 (0 = 10100101)
sumber