Bagaimana cara mencadangkan 20 + TB data?

86

Kami memiliki server NAS di perusahaan tempat saya bekerja yang digunakan untuk menyimpan sesi fotografi. Setiap sesi sekitar 100GB. Selama beberapa tahun terakhir server ini telah mengakumulasi 10+ TB data, dan kami meningkatkan jumlah pemotretan secara eksponensial. Saya memperkirakan bahwa pada akhir tahun depan kita akan memiliki 20+ TB yang tersimpan di NAS ini. Kami saat ini mendukung server ini hingga menggunakan kaset LTO-5 dengan Symantec BackupExec. Karena ukuran server ini telah bertambah, cadangan penuh dari server ini tidak selesai dalam semalam. Adakah yang punya saran tentang cara membuat cadangan jumlah data ini? Haruskah kita mencadangkannya ke kaset? Apakah ada opsi lain yang mungkin lebih baik?

Jesus Fidalgo
sumber
36
Mengapa Anda melakukan backup penuh setiap malam? Mengapa tidak menjalankan Full backup sekali seminggu dan menjalankan Incremental backups 6 hari seminggu tersisa?
joeqwerty
9
Itulah yang kami lakukan, maaf saya tidak menyebutkan bahwa ... penuh mingguan adalah yang tidak selesai.
Jesus Fidalgo
6
Apakah mingguan penuh perlu diselesaikan dalam semalam? Tidak jarang bagi mingguan untuk mengambil lebih dari 24 jam untuk dataset yang cukup besar.
Stefan Lasiewski
2
Apa jenis NAS yang Anda gunakan?
ewwhite
6
Apakah Anda yakin peningkatan pemotretan eksponensial ?
gerrit

Jawaban:

114

Anda harus mengambil langkah mundur dan berhenti berpikir, "Saya punya 20TB pada NAS saya, saya harus membuat cadangan!" dan kembangkan strategi penyimpanan yang memperhitungkan sifat data Anda:

  • Dari mana asalnya dan berapa banyak data baru yang Anda dapatkan? (Anda punya ini di pertanyaan Anda)
  • Bagaimana data digunakan setelah Anda memilikinya? Apakah orang mengedit gambar? Apakah Anda menyimpan yang asli dan menghasilkan versi yang diedit?
  • Berapa lama Anda perlu menyimpan semua data? Apakah orang masih membuat perubahan pada gambar dari 2 tahun yang lalu?

Bergantung pada jawaban untuk dua pertanyaan terakhir, Anda mungkin membutuhkan lebih banyak Sistem Pengarsipan daripada sistem cadangan yang sangat berbeda.

Data yang statis (mis. Gambar berusia 2 tahun yang Anda simpan "untuk berjaga-jaga") tidak perlu dicadangkan setiap malam, atau bahkan setiap minggu, itu harus diarsipkan. Apa yang sebenarnya Anda lakukan mungkin lebih kompleks, tetapi secara konseptual, semua gambar lama dapat dihapus menjadi kaset (banyak salinan!) Dan tidak dicadangkan lagi.

Berdasarkan komentar Anda, beberapa pemikiran tambahan:

  • Karena Anda menjaga dokumen asli dari setiap pemotretan tidak tersentuh dan bekerja pada salinan, dan dengan asumsi bahwa setidaknya beberapa gambar asli tidak berguna, Anda mungkin dapat memotong jumlah data yang perlu didukung dua.

  • Jika Anda masih tidak dapat menyelesaikan cadangan penuh dalam rentang waktu berapa pun yang Anda miliki, cara umum untuk mempercepatnya adalah dengan melakukan cadangan disk-ke-disk terlebih dahulu kemudian menyalin cadangan yang ditetapkan ke tape.

Bangsal
sumber
1
Pemotretan asli disimpan tanpa disentuh, kemudian salinan pemotretan lain digunakan untuk mengedit. Data mungkin perlu disimpan sekitar 2 tahun.
Jesus Fidalgo
20
+1 Dikatakan dengan baik. Saya terkejut bagaimana perbedaan antara Cadangan dan Arsip, secara umum, kurang dipahami. Saya melakukan backup penuh dan inkremental pada sistem saya dan data sementara seperti email & dokumen, tetapi arsipkan fotografi saya (1.2TB dan terus bertambah :-). Seandainya saya bisa memberikan +1 lagi untuk saran disk-ke-disk juga.
Ex Umbris
8
+1 Saya berani bertaruh bahwa 80% dari data di NAS tidak pernah digunakan lebih dari sekali.
Stefan Lasiewski
+1 Pilihan terbaik di sini adalah melakukan transfer disk ke disk delta harian dan bahkan setiap jam untuk menangkap perubahan dan kemudian mengirimkan cadangan lengkap atau tambahan ke arsip atau penyedia / lokasi di luar lokasi secara mingguan atau semi-mingguan. Kami biasa mengambil cadangan delta file SQL kami setiap 15 menit untuk mengurangi jumlah kehilangan data dalam skenario DR.
Brent Pabst
12

Anda memiliki dua opsi:

Pilihan 1:

  1. Beli NAS lain
  2. Berikan pengguna Anda akses RO ke new_NAS
  3. Pindahkan semua file yang lebih lama dari 2 tahun ke new_NAS
  4. Terus cadangkan old_NAS seperti biasa
  5. Setiap 6 bulan, pindahkan file yang lebih tua dari 2 tahun ke new_NAS

Pilihan 2:

  1. Beli NAS lain
  2. Jalankan rsyncsetiap jam: old_NAS -> new_NAS

    atau, lebih baik gunakan sesuatu seperti rdiff-backup yang tidak rsync + menyimpan delta dengan perubahan file (Anda dapat mengembalikan versi file yang lebih lama)

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. Setiap 6 bulan bersihkan file lama yang menjalankan sesuatu seperti:

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    
jet
sumber
2

Mengapa cadangan Anda harus diselesaikan dalam semalam? Kinerja fileserver? Anda mungkin dapat membatasi bandwidth perangkat lunak cadangan Anda untuk membatasi dampak di siang hari. Atau persembahkan antarmuka pada NAS Anda untuk berbicara dengan drive tape untuk membatasi dampak pada lalu lintas lainnya.

Bisakah Anda menjalankan dump penuh pada akhir pekan dan hanya melakukan inkremental selama seminggu? Jika masalahnya adalah mengganti kaset pada akhir pekan ketika tidak ada orang di sekitar, perpustakaan tape / autochanger murah harganya jauh lebih murah daripada membayar seseorang untuk mengganti kaset.

Dapatkah Anda mengelompokkan data Anda ke dalam beberapa grup yang cukup kecil untuk diselesaikan dalam jendela cadangan Anda?

Kami memiliki sekitar 50TB data pada NAS kami dan butuh lebih dari seminggu untuk mendapatkan seluruh data menggunakan 2 tape drive (satu volume membutuhkan waktu hampir satu minggu karena itu berisi banyak file kecil). Apa yang kami lakukan adalah mereplikasi data kami ke NAS kedua. NAS sekunder kami ada di tempat (tetapi di pusat data yang berbeda dari yang utama), jadi kami masih menggulung data ke tape untuk cadangan di luar lokasi. Kami menjalankan pencadangan dari NAS sekunder tersebut sehingga pencadangan tidak memperlambat siapa pun.

Jika Anda dapat menempatkan NAS sekunder Anda cukup jauh, maka itu bisa menjadi cadangan Anda, tidak perlu kaset.

Johnny
sumber
1

Saya hanya ragu tentang ukuran setiap sesi pemotretan, apakah benar-benar 100GB / sesi? Berapa banyak sesi yang dilakukan perusahaan Anda setiap bulan?

Karena Anda kebanyakan menyimpan sesi lama yang tidak akan sering digunakan, dll, dan mungkin tidak perlu memulihkan informasi itu sesering itu, saya sarankan Anda menggunakan layanan dari beberapa perusahaan untuk mengurus tugas itu untuk Anda .

Sebagai contoh, menyimpan 20TB itu menggunakan layanan online seperti Amazon Glacier akan menelan biaya lebih dari $ 200 / bulan. Jika Anda perlu sering mengambil arsip-arsip itu, atau bahkan memulihkannya secara penuh, itu akan mencapai batasan waktu / biaya. Jika Anda hanya menyimpan barang-barang itu "untuk memastikan barang-barang itu disimpan", mungkin menggunakan bagian ketiga dapat membuat hidup Anda lebih mudah (dan bahkan lebih murah daripada membeli NAS, kaset, dll.)

woliveirajr
sumber
1
100 GB per sesi terdengar agak tinggi bagi saya, tetapi tidak masuk akal. Kami biasanya memiliki 32+ GB sesi tempat saya dulu bekerja, dan peralatan kami adalah menengah.
Tom Marthenal
1

full backups of this server are not completing overnight
Lalu coba cadangan tambahan? Satu cadangan penuh setiap xx hari, tambahan sisanya.

Hardisk murah, lebih cepat daripada kaset dan dapat digunakan untuk cadangan.

Juga ada alternatif yang baik untuk cadangan cloud sekarang sehingga tidak diperlukan untuk terus menambahkan kaset lebih banyak dan lebih cepat.
Sebagai contoh:

Tedd Hansen
sumber
Lihatlah komentar - ini adalah full mingguan yang tidak selesai. Selain itu, cadangan cloud untuk 20TB data ... bukan ide yang baik. Opsi "murah" dari Amazon Glacier akan menelan biaya ~ 2500 / tahun, dan mengambil semua data akan menelan biaya ~ $ 36.000.
HopelessN00b
Itu sebenarnya tidak banyak.
Sirex
1
Saya kira itu masalah pendapat jika $ 2400 / tahun banyak untuk 20TB penyimpanan relatif aman dan sepenuhnya bebas perawatan. Tidak ada konsumsi daya, tidak ada pendinginan, tidak ada perangkat keras yang gagal, tidak ada SLA, tidak memakan ruang rak. Dan seperti kebanyakan sistem Anda harus mengharapkan sekitar 0 operasi pemulihan penuh. Dan jika Anda membutuhkan pemulihan harganya lebih seperti $ 1800 dari $ 36000 (tidak yakin dari mana Anda mendapatkan nomor itu).
Tedd Hansen
Untuk gletser, $ 36K cukup dekat. Saya kira menghitungnya sebagai $ 42K untuk biaya pengambilan pada 20TB. Ini masih belum banyak. Bandwidth lebih merupakan masalah.
Sirex
1

Saya pikir solusi terbaik untuk ini adalah apa yang kami lakukan dengan data penggajian kami, yang seharusnya membutuhkan upaya minimal untuk Anda terapkan.

  • Awalnya, itu disimpan dengan sisa data server yang didukung setiap hari. Periode retensi kami pada cadangan tersebut adalah 13 bulan.

  • Setelah kami tidak lagi berharap bahwa data perlu diubah, (dua periode pembayaran kemudian, IIRC) data tersebut (melalui skrip) disimpan ke volume arsip yang dikecualikan dari cadangan reguler.

  • Volume arsip dicadangkan untuk direkam setiap tahun, dan kaset dikirim ke Cintas untuk penyimpanan yang tidak terbatas.

Hal ini memungkinkan kami untuk memiliki akses online yang mudah ke data yang tidak berubah (jadi kami tidak perlu menelepon dalam rekaman kapan pun seorang akuntan ingin melihat sesuatu), sambil mempertahankan arsip data di luar situs yang tidak terbatas yang mungkin perlu kami simpan selamanya , dan tanpa menghancurkan sistem cadangan kami. Kedengarannya seperti jenis penyetelan yang sama bisa bekerja untuk Anda, meskipun Anda mungkin ingin menyesuaikan jumlah data yang Anda jaga secara online, tergantung pada kebutuhan Anda untuk mengakses data ini secara tepat waktu - 20TB penyimpanan tingkat perusahaan jauh lebih mahal daripada mengarsipkannya ke dua atau tiga set kaset LTO5 yang Anda simpan di brankas luar situs.

HopelessN00b
sumber
0

Mungkin Anda dapat membuat Backblaze Pod Anda sendiri : 135Tb untuk 7384 $
Klik di sini untuk informasi lebih lanjut: Backblaze Pod info bangunan

Anda dapat membeli potongan-potongan yang dibutuhkan dan membangunnya sendiri.

Mungkin Anda bisa membangun 3 di antaranya, dan menyimpan 2 di tempat, dan 1 di luar kantor. Kemudian Anda dapat menggunakan satu pod sebagai "data online", pod penukaran kedua sebagai cadangan dari pod pertama, dan pod penukaran ketiga sebagai cadangan darurat di luar lokasi.

Dengan 135Tb penyimpanan untuk setiap pod Anda bahkan dapat berpikir tentang menyimpan beberapa sejarah perubahan ...
135Tb / 20Tb = 19 salinan cadangan penuh .
Atau Anda dapat menyimpan 10 cadangan lengkap ditambah cadangan diferensial yang konyol.

Tentu, jika Anda ingin cadangan di luar kantor, Anda akan membutuhkan semacam bandwidth besar ... :-)

Maks
sumber
5
Jika data dan pekerjaan Anda penting bagi Anda, Anda sebaiknya tidak mencoba membuat pod backblaze Anda sendiri dari awal. Sepertinya ide yang bagus, sampai Anda menyadari bahwa Anda meletakkan semua telur Anda dalam satu keranjang yang sangat besar. Lebih buruk lagi, keranjang itu belum diuji secara keseluruhan terintegrasi. Saus rahasia backblaze adalah replikasi perangkat lunak di banyak pod, yang memungkinkan seluruh pod gagal secara sempurna. Saya malah akan merekomendasikan server penyimpanan supermicro, centos, xfs dan rdiff-backup.
bugaboo
-1

Rekan kerja saya membeli NAS Synology 8-disk. Ini menjalankan RAID hibrida. Dia membeli delapan Seagate Barracuda 3TB dari NewEgg beberapa minggu yang lalu masing-masing seharga $ 89. Anda dapat menyalin mirror dari NAS produksi ke NAS baru ini melalui GigaBit. Karena Anda hanya mentransfer perbedaan, transfer akan memakan waktu lebih singkat. Kemudian Anda dapat menggunakan cadangan NAS untuk melakukan penuh atau tambahan. Biaya untuk Anda adalah di bawah $ 2000 untuk NAS cadangan.

Matahari
sumber