Hampir semua pengarsip modern melakukan hal ini, satu-satunya perbedaan adalah bahwa mereka menyebut ini sebagai arsip "padat", karena dalam semua file digabungkan menjadi satu aliran sebelum dimasukkan ke algoritma kompresi. Ini berbeda dari kompresi zip standar yang mengkompres setiap file satu per satu dan menambahkan setiap file terkompresi ke arsip.
7-zip pada dasarnya secara efektif mencapai de-duplikasi. 7-Zip misalnya akan mencari file, akan mengurutkannya dengan jenis file dan nama file yang serupa sehingga dua file dengan tipe dan data yang sama akan ditempatkan berdampingan dalam aliran menuju algoritma kompresor. Kompresor kemudian akan melihat banyak data yang telah dilihatnya baru-baru ini dan kedua file tersebut akan melihat peningkatan besar dalam efisiensi kompresi dibandingkan dengan mengompresi file satu-per-satu.
Linux telah melihat perilaku yang sama untuk waktu yang lama melalui prevalensi format ".tgz" mereka (atau ".tar.gz" untuk menggunakan bentuk lengkapnya) karena tar hanya menggabungkan semua file ke dalam satu aliran (walaupun tanpa menyortir dan mengelompokkan file) dan kemudian mengompres dengan gzip. Apa yang terlewatkan ini adalah penyortiran yang dilakukan 7-zip, yang mungkin sedikit mengurangi efisiensi tetapi masih jauh lebih baik daripada hanya menggertak banyak file yang dikompresi secara individual bersama-sama seperti yang dilakukan zip.
.tar.gz
hanya kompres blok yang relatif kecil (seperti 900KB) pada waktu yang sepenuhnya independen satu sama lain dan dengan demikian tidak memiliki kemampuan untuk mendupuplikasi dua file besar tetapi identik (misalnya, beberapa gambar 4MB)?Tidak ada gunanya menggunakan deduplikasi dengan proses kompresi. Kebanyakan algoritma kompresi membuat apa yang disebut 'kamus' yang akan mencari bit data yang paling umum, atau digunakan kembali. dari sana hanya akan merujuk entri kamus daripada menulis seluruh "kata" lagi. Dengan cara ini sebagian besar proses kompresi sudah memotong data yang berlebihan atau duplikat dari semua file.
Misalnya jika Anda mengambil file 1 MB dan menyalinnya 100 kali dengan nama yang berbeda setiap kali (total ruang disk 100 MB), maka Anda mengompresnya dalam file zip atau zip, Anda akan memiliki file zip total 1 MB. Ini karena semua data Anda dimasukkan ke dalam satu entri kamus dan direferensikan 100 kali, yang hanya memakan sedikit ruang.
Ini adalah penjelasan yang sangat sederhana tentang apa yang terjadi, tetapi intinya tetap disampaikan dengan baik.
sumber
7-Zip, zip, gzip dan semua arsip lainnya tidak mendeteksi area identik yang jauh dari satu sama lain, seperti hanya beberapa megabyte atau lebih, di dalam file yang sama atau ditempatkan pada posisi berbeda di dalam file yang berbeda.
Jadi tidak, pengarsipan normal tidak berkinerja sebaik exdupe dan lainnya, dalam beberapa sesi. Anda dapat melihat ini jika Anda mengompres beberapa mesin virtual atau hal lain.
sumber