Deduplikasi tingkat blok di Linux

10

NetApp menyediakan deduplikasi tingkat blok (ASIS). Apakah Anda tahu sistem file (bahkan berbasis FUSE) di Linux (atau OpenSolaris, * BSD) yang menyediakan fungsionalitas yang sama?

(Saya tidak tertarik dengan deduplikasi palsu seperti hardlink).

Benoît
sumber

Jawaban:

6

Periksa lessFS, sistem file deduplikasi data, untuk Linux. Ini masih dalam versi beta tetapi Anda dapat mencobanya:

http://www.lessfs.com/

Salam,

MV

MV.
sumber
Luar biasa! Itu masih beta tapi itu pasti sesuatu untuk memulai.
Benoît
7

Deduplikasi datang ke ZFS pada OpenSolaris tetapi fungsionalitas itu saat ini tidak tersedia.

Itu prototyped oleh Jeff Bonwick dan Bill Moore musim dingin yang lalu dan mereka bekerja mengintegrasikannya musim panas ini. Jadi itu harus tersedia dalam rilis OpenSolaris berikutnya atau lebih cepat jika Anda ingin bermain-main dengan cabang pengembangan.

Pengaruh 3d
sumber
Lihat jawaban @ jlliagre - sekarang tersedia.
James Moore
4

Bagi orang-orang yang mungkin tidak terbiasa dengan deduplikasi data, itu adalah teknik di mana data dianalisis pada tingkat file (atau blok, saya kira), dan di mana file / blok yang identik di seluruh sistem file diganti dengan token yang lebih kecil. Ini memiliki efek sangat menyusut ukuran efektif pada disk. Ini bisa dianggap sebagai bentuk copy-on-write . Baca halaman wiki di atasnya.

Tidak ada sistem file yang saya dengar di Linux untuk melakukan dedup, file atau level blok. Binatang seperti itu akan berguna, meskipun prosesornya cukup intensif.

Matt Simmons
sumber
4

Deduplikasi sekarang tersedia dengan ZFS di OpenSolaris (build 128a and newer).

Jlliagre
sumber
1

Saya baru saja memposting proyek yang telah saya kerjakan yang melakukan inupuplikasi inline. Anda dapat melihatnya di sini jika Anda tertarik. Ini didasarkan pada sekering dan berjalan di linux.


sumber
0

Saya tidak tahu implementasi dedup gratis untuk Linux. Saya telah melihat beberapa vendor penyimpanan merekomendasikan menggunakan sistem HSM (manajemen penyimpanan hirarkis) dengan VTL (Virtual storage Library) yang melakukan dedup.

Anda juga dapat mempertimbangkan sistem seperti Occarina yang tidak transparan tetapi dapat memberikan hasil yang lebih baik daripada dedup.

James
sumber
0

jadi ... tidak ada berita tentang deduplikasi di Linux? opendedup mungkin menjadi pilihan tetapi memberikan platform java berjalan, saya tidak ingin sakit kepala. Saya sudah mencobanya ya, tapi mesin java ini dan yang lainnya tidak membaik dengan kebutuhan waktu penyimpanan dan keamanan saya.


sumber
0

Opsi Deduplikasi tersedia di Linux, pada sistem file BTRFS dan ZFS. BTRFS dikembangkan secara native di bawah linux dan memiliki alat deduplikasi offline. Saya tidak berpikir 'offline', Anda harus menggunakan fs. Offline artinya, data yang ditulis secara aktif tidak diduplikasi. Tetapi kemudian Anda menjalankan alat untuk deduplicate berpikir disimpan sekarang. Sebenarnya alat mungkin dalam versi beta. Cara lain ada di dalam ZFS. Tersedia sebagai FUSE dan secara native: http://zfsonlinux.org/ . Ini melakukan deduplikasi online, sayangnya ini memperlambat menulis karena semua harus dihitung dengan cepat. Anda dapat menonaktifkan dan secara online perilaku ini. Setelah Anda menghapus deduplikasi, semua data yang dideduplikasi akan tetap disimpan sebagai deduplikasi. Tulisan baru akan disimpan sebagai 'duplikat'. Jika Anda ingin mendupuplikasi data itu di masa mendatang, Anda harus mengaktifkan deduplikasi dan menulis ulang semua file 'duplikat'.

Lihat dokumen yang tersedia di halaman. Untuk mempercepat penulisan dan pembacaan, Anda dapat menambahkan perangkat yang lebih cepat ke kumpulan penyimpanan (khususnya drive SDD atau USB flash yang lebih cepat, perhatikan keandalan perangkat).

Znik
sumber
-2

DRBD melakukan hal itu dan melakukannya dengan sangat baik! Dapat melakukan Master / Budak atau Master / Master :-)

Antoine Benkemoun
sumber
Bisakah Anda mengarahkan saya ke dokumen deduplikasi? Saya tidak dapat menemukannya di drbd.org/home/feature-list .
Benoît
Saya pikir Antoine berarti 'duplikasi', yang tidak benar-benar apa yang Anda cari, saya tahu
Matt Simmons
oh my bad, apa perbedaan antara duplikasi dan deduplikasi?
Antoine Benkemoun
Saya memasang penjelasan cepat di komentar saya, tetapi pada dasarnya duplikasi mengirim data ke host lain, di mana ketika deduplication menghilangkan informasi yang identik di seluruh filesyste, meningkatkan ruang kosong yang efektif
Matt Simmons