Apa perbedaan antara metode kompresi global dan universal?

12

Saya mengerti bahwa metode kompresi dapat dibagi menjadi dua set utama:

  1. global
  2. lokal

Set pertama berfungsi terlepas dari data yang sedang diproses, yaitu, mereka tidak bergantung pada karakteristik data apa pun, dan dengan demikian tidak perlu melakukan preprocessing pada bagian mana pun dari dataset (sebelum kompresi itu sendiri). Di sisi lain, metode lokal menganalisis data, mengekstraksi informasi yang biasanya meningkatkan tingkat kompresi.

Ketika membaca tentang beberapa metode ini, saya perhatikan bahwa metode unary tidak universal , yang mengejutkan saya karena saya pikir "globalitas" dan "universalitas" mengacu pada hal yang sama. Metode unary tidak bergantung pada karakteristik data untuk menghasilkan pengkodeannya (yaitu, itu adalah metode global), dan karena itu harus global / universal, bukan?

Pertanyaan utama saya:

  • Apa perbedaan antara metode universal dan global?
  • Bukankah klasifikasi ini sinonim?
Rubens
sumber
2
Dapatkah Anda menautkan / referensi di mana Anda membaca bahwa metode unary tidak universal? Konteks dapat membantu.
Air
3
Saya ... tidak yakin bagaimana ini berhubungan dengan ilmu data. Tampaknya di luar topik untuk pertukaran tumpukan ini. Bisakah Anda menghubungkan ini kembali dengan ilmu data?
Slater Victoroff
@ SlaterTyranus Saya ... tidak yakin juga (dan itu membuat saya berpikir tentang dua pertanyaan lain yang saya posting). Ide saya adalah menambahkan pertanyaan ini karena metode kompresi sebagian besar digunakan dalam pencarian informasi (terutama selama pengindeksan). Secara umum, saya menemukan ini terkait dengan efisiensi, dan mungkin diletakkan di area keterampilan peretasan diagram Venn ini . Ngomong-ngomong, saya kira akan menyenangkan untuk membahas apakah pertanyaan semacam ini ada di topik.
Rubens
@ Ruben Itu sepertinya diskusi yang masuk akal, dalam pembicaraan efisiensi pikiran saya jauh lebih cocok dengan sesuatu seperti CS teoritis daripada keterampilan hacking eksplisit . Dalam pikiran saya, keterampilan peretasan jauh lebih terkait dengan hal-hal seperti basis data, penyebaran, dan pengetahuan alat.
Slater Victoroff
1
@VanBalen Dua poin utama: 1. Teori informasi penting dalam beberapa pendekatan ilmu data, tetapi tidak relevan dalam banyak hal lain. 2. Dasar-dasarnya secara inheren di luar topik, mengajukan pertanyaan terperinci tentang statistik atau aljabar linier juga akan keluar dari topik meskipun keduanya sangat diperlukan untuk ilmu data yang berguna.
Slater Victoroff

Jawaban:

3

Pertimbangkan potongan data berikut:

1010010110100101

Universal - ini adalah algoritma kompresi generik yang merupakan data agnostik. Versi mentah enkode run length akan termasuk dalam kategori ini. Keuntungannya adalah kompres dan dekompresi sangat cepat. Kelemahannya adalah mungkin sangat tidak efektif berdasarkan data yang akan dikompres.

1111111111111111 -> 16 1 (lucky case)

1010010110100101 -> 1010010110100101 (kasing sial)

Lokal - metode ini akan mempertimbangkan segmen yang lebih kecil dari panjang tetap, katakanlah 4, cari pola dan kompres mereka. Misalnya. Data ini hanya berisi dua jenis pola ini - 1010 dan 0101. Pola-pola ini dapat direpresentasikan sebagai 0s dan 1s dan keseluruhan data akan berupa tabel yang mewakili pemetaan, dan sesuatu seperti 0101. Ini memiliki potensi untuk menghasilkan jauh lebih kecil ukuran terkompresi.

1010010110100101 -> 1010 0101 1010 0101 -> 0101 (0 = 1010,1 = 0101)

Global - metode ini akan melihat seluruh data dan menemukan pola yang optimal / jauh lebih baik untuk mengompres data. Contoh data berisi hanya satu pola 10100101 dan menyatakannya sebagai 00 bersama dengan tabel pemetaan. Ini memiliki potensi untuk mendapatkan ukuran terkompresi sekecil mungkin, tetapi juga secara komputasi paling berat.

1010010110100101 -> 10100101 10100101 -> 00 (0 = 10100101)

doodhwala
sumber