Saya bereksperimen dengan menggunakan ZFS untuk mendeduplikasi perpustakaan besar file FLAC. Tujuannya ada dua:
- Kurangi pemanfaatan penyimpanan
- Kurangi bandwidth yang dibutuhkan untuk menyinkronkan perpustakaan dengan penyimpanan cloud
Banyak dari file-file ini dari trek musik yang sama tetapi dari media fisik yang berbeda. Ini berarti bahwa untuk sebagian besar mereka adalah sama dan biasanya dekat dengan ukuran yang sama, yang membuat saya berpikir bahwa mereka harus mendapat manfaat dari deduplikasi tingkat blok.
Namun dalam pengujian saya, saya tidak melihat hasil yang baik. Ketika saya membuat kumpulan dan menambahkan tiga trek ini (lagu yang identik dari media sumber yang berbeda) daftar zpool melaporkan 1,00 dedupe. Jika saya menyalin semua file (membuat duplikat yang tepat dari ketiganya) dedupe tanjakan, jadi saya tahu itu diaktifkan dan berfungsi, tetapi tidak menemukan duplikasi dalam kumpulan file asli.
Pikiran pertama saya adalah bahwa mungkin beberapa data header variabel (tag metadata, dll.) Mungkin salah menyelaraskan sebagian besar data dalam file-file ini (frame audio) tetapi bahkan membuat data header konsisten di ketiga file tidak Tampaknya tidak berdampak pada deduplikasi.
Saya mempertimbangkan untuk mengambil rute alternatif (menguji sistem file dedupe lain serta beberapa kode khusus) tetapi karena kita sudah menggunakan ZFS dan saya suka opsi replikasi ZFS, saya lebih suka menggunakan ZFS dedupe untuk proyek ini; tapi mungkin itu tidak mampu bekerja dengan baik dengan data seperti ini.
Setiap umpan balik mengenai penyetelan yang dapat meningkatkan kinerja dedupe untuk jenis dataset ini, atau konfirmasi bahwa ZFS dedupe bukan alat yang tepat untuk pekerjaan ini dihargai.