Format file arsip mana yang memberikan perlindungan pemulihan terhadap korupsi file?

10

Saya menggunakan HDD eksternal saya untuk membuat cadangan file saya, dengan menempatkannya ke file arsip besar.

Saya memiliki ribuan file kecil, dan memasukkannya ke dalam arsip berukuran 500MB hingga 4.2GB, sebelum mengirimnya ke HDD eksternal. Tetapi, apakah satu hard disk merusak seluruh arsip atau hanya satu file dalam arsip? Saya khawatir satu bit yang terbalik dapat membuat sebagian besar arsip tidak berguna.

Hal-hal seperti pemeriksaan CRC dapat memberi tahu Anda tentang adanya korupsi, tetapi saya lebih tertarik pada kemampuan untuk memulihkan file yang tidak rusak dari arsip yang rusak. Format file arsip apa yang akan memberikan kemampuan terbaik untuk pulih dari kegagalan seperti itu, baik melalui desain asli dari struktur arsip atau keberadaan alat pemulihan tambahan? Apakah ada perbedaan kemampuan antara file zip dan iso?

sevenkul
sumber
Saya tahu setidaknya salah satu program yang saya gunakan untuk sinkronisasi file mendukung penyalinan multithreaded, yang saya percaya mengurangi beberapa kelambatan dalam menyalin banyak file kecil; juga, meskipun saya harus menguji untuk memastikan, saya memiliki kecurigaan bahwa membuat arsip banyak file kecil juga akan memakan waktu lebih lama daripada membuat arsip untuk beberapa file besar, bahkan jika tidak ada kompresi yang digunakan. Saya tidak ingat apakah ini hanya masalah Windows atau tidak; iirc, ada beberapa solusi perangkat lunak yang tersedia untuk Linux yang dapat menangani banyak file kecil dalam blok, tetapi saya tidak dapat mengingat detailnya.
JAB
Silakan buka kembali pertanyaannya. Saya telah menulis ulang, dan itu harus lebih jelas sekarang. "Terbaik" akan selalu berbasiskan opini, tetapi persyaratan untuk menjadi yang terbaik di sini cukup jelas. Ruang kecil untuk opini pribadi IMHO. Silakan hapus komentar ini setelah dibuka kembali.
Marcel

Jawaban:

8

Mengingat bahwa kerusakan pada bagian direktori dari arsip apa pun dapat berpotensi membuat seluruh arsip tidak berguna, taruhan terbaik Anda adalah menambahkan langkah terpisah ke proses pencadangan Anda untuk menghasilkan apa yang disebut file paritas . Dalam hal jika blok data dalam file asli rusak, itu dapat direkonstruksi dengan menggabungkan data dari file paritas dengan blok yang valid dari file asli.

Variabelnya adalah seberapa besar kerusakan yang ingin Anda perbaiki. Jika Anda ingin melindungi dari satu bit flip, maka file paritas Anda hanya berukuran 1 bit. Jika Anda menginginkan sesuatu dengan ukuran sektor disk, maka jelas itu akan lebih mahal.

Ada teori besar di balik ini (lihat Forward Error Correction ) dan ini banyak digunakan dalam praktik. Sebagai contoh, ini adalah bagaimana CD dapat menahan tingkat goresan tertentu dan bagaimana ponsel dapat mempertahankan kualitas panggilan yang wajar melalui koneksi yang hilang.

Singkat cerita, lihat .parfile.

Angstrom
sumber
1
Terima kasih, saat mencari file paritas, saya menemukan catatan pemulihan WinRAR lebih sederhana dalam penggunaan sehari-hari. Saya juga akan mencoba QuickPar.
sevenkul
2
Satu bit data koreksi kesalahan tidak cukup untuk memperbaiki kesalahan satu bit dalam file data n-bit Anda. Anda dapat mendeteksi kesalahan seperti itu dengan satu bit, tetapi untuk memperbaikinya, Anda memerlukan setidaknya log n bit.
Thom Smith
4

Bup [1] membuat cadangan hal-hal dan secara otomatis menambahkan redundansi paritas, membuat bit-busuk sangat tidak mungkin. Kegagalan disk bencana masih menjadi masalah, sehingga kita dapat menggunakannya dengan git-annex.

git-annex [2] mengelola file yang disimpan di banyak repositori, beberapa di antaranya mungkin disimpan di komputer Anda, thumb-drive, login ssh, beberapa layanan cloud atau repositori cadangan bup [3], membiarkan data mengalir dengan cukup transparan. berdasarkan permintaan atau secara otomatis ke dalam repositori mana pun yang telah Anda atur. Ini juga merupakan proyek perangkat lunak sumber terbuka dan bebas yang didanai orang banyak yang ditulis dalam Haskell dengan versi yang berjalan pada banyak platform, termasuk linux, mac, windows dan android.

[1] https://github.com/bup/bup

[2] http://git-annex.branchable.com/

[3] http://git-annex.branchable.com/special_remotes/bup/

Yuval Langer
sumber
3

Tetapi, apakah satu harddisk gagal menghancurkan seluruh arsip atau hanya satu file dalam arsip?

Jika benar-benar tidak ada alternatif untuk menyalin semuanya sebagai satu arsip besar, Anda mungkin harus membuat keputusan antara menggunakan arsip terkompresi atau tidak terkompresi.

Isi arsip yang tidak dikompres seperti tarbal masih dapat dideteksi dengan perangkat lunak pemulihan file bahkan jika file arsip itu sendiri tidak lagi dapat dibaca (misalnya karena header yang rusak).

Menggunakan arsip terkompresi dapat berbahaya karena beberapa dapat menolak untuk mengekstrak file jika kesalahan checksum terjadi yang dapat disebabkan bahkan jika hanya sedikit perubahan file arsip.

Tentu saja seseorang dapat meminimalkan risiko dengan tidak menyimpan ratusan file ke dalam satu arsip terkompresi tetapi ratusan file terkompresi menjadi satu arsip yang tidak terkompresi.

gzip *
tar cf archive.tar *.gz

Meskipun saya belum pernah melihat banyak file gzip di tarball di margasatwa sebelumnya. Hanya kebalikannya yang populer (yaitu file tar.gz).

Apakah ada perbedaan antara file zip dan iso?

ZIP adalah arsip terkompresi (kebanyakan tetapi tidak harus) dan ISO adalah format yang menunjukkan data mentah disalin pada tingkat rendah dari disk optik ke dalam file. Yang terakhir dapat berisi segalanya secara harfiah.

Dulange
sumber