Saya memiliki beberapa data read-only yang kompleks di sistem file saya. Ini berisi ribuan snapshot dari revisi tertentu dari repositori svn, dan output dari tes regresi. File identik di antara foto sudah diduplikasi menggunakan tautan keras. Dengan cara ini, kapasitas penyimpanan tidak perlu besar, tetapi masih mengkonsumsi banyak inode, dan ini membuat fsck sangat lama untuk sistem file utama saya.
Saya ingin memindahkan data ini ke sistem file lain, sehingga tidak terlalu mempengaruhi sistem file utama. Anda punya saran? Squashfs tampaknya menjadi pilihan yang memungkinkan, tetapi saya harus memeriksa apakah itu dapat menangani tautan keras secara efisien.
filesystems
backup
hard-link
Wei-Yin
sumber
sumber
Jawaban:
Jika lambat, apakah Anda mencoba ext4? Mereka menambahkan beberapa fitur yang membuat fsck sangat cepat dengan tidak melihat inode yang tidak digunakan :
sumber
Btrfs memiliki dukungan asli untuk snapshot, jadi Anda tidak perlu menggunakan tautan keras untuk deduplikasi. Anda dapat menciptakan kembali pengaturan Anda saat ini dengan membuat sistem file btrfs dan memuatnya dengan revisi paling awal yang Anda butuhkan, dan mengambil snapshot, dan kemudian memutarkan repositori ke depan ke setiap titik waktu yang Anda butuhkan snapshot dan mengambil snapshot pada setiap langkah. Ini harus lebih efisien daripada tautan keras, dan lebih mudah diatur juga.
Saya juga berpikir (walaupun saya jauh dari yakin akan hal ini) bahwa squashfs mendupuplikat file secara transparan, jadi meskipun itu tidak menangani tautan keras, Anda masih akan melihat manfaatnya. Jika Anda tidak perlu mengubah data dalam sistem file, maka squashfs mungkin adalah cara yang harus dilakukan, karena fsck kemudian dapat digantikan oleh md5sum;)
sumber
Saya lebih suka XFS karena saya memiliki pengalaman yang sangat baik dengan sistem file ini. Tapi saya sangat merekomendasikan, Anda melakukan tes dengan data Anda dan semua sistem file yang disarankan.
sumber
Saya tahu beberapa toko yang menggunakan DataDomain untuk tujuan itu.
Skrip kearsipan Anda bisa sangat sederhana (tar atau rsync dan cron, misalnya), dan Anda tidak perlu khawatir tentang mengelola tautan keras, atau direktori yang tidak dapat di-hardlink pada sebagian besar sistem file. Tidak perlu salinan tambahan kecuali untuk menghemat bandwidth. Semua keajaiban terjadi di bawahnya di dalam lapisan blok. Bukan hal yang aneh untuk meng-host data virtual senilai 15-20TB sementara hanya menggunakan ruang disk nyata senilai 1-2TB. Anda masih memiliki banyak sisa untuk cadangan disk.
Data akan dilayani melalui NFS atau iSCSI, tapi saya tidak yakin apakah itu masalah
Ketika FreeBSD mendapatkan ZFS v23, deduplikasi akan tersedia untuk kita semua.
sumber