Ini adalah situasi yang umum, ketika administrator membuat sistem untuk pencadangan otomatis dan melupakannya. Hanya setelah sebuah sistem gagal pemberitahuan administrator, bahwa sistem cadangan telah rusak sebelum atau cadangan tidak dapat diperbaiki karena beberapa kesalahan dan dia tidak memiliki cadangan saat ini untuk memulihkan dari ... Jadi apa praktik terbaik untuk menghindari situasi seperti itu ??
backup
monitoring
backup-restoration
best-practices
Kazimieras Aliulis
sumber
sumber
Jawaban:
Jalankan latihan api ... setiap beberapa bulan adalah ide yang baik untuk mengatakan sistem XYZ sedang down ... kemudian benar-benar melalui gerakan untuk membawanya kembali online ke VM baru dll. Itu menjaga hal-hal yang jujur dan membantu Anda menangkap kesalahan.
sumber
mode kotak sabun: AKTIF
Saya akan mengatakan bahwa sesederhana itu cadangan yang tidak diuji secara teratur tidak ada gunanya.
Pekerjaan saya sebelumnya, kami memiliki kebijakan bahwa setiap sistem (produksi, pengujian, pemantauan pengembangan, dll.) Harus diuji kembali setiap 6 bulan.
Ini juga merupakan pekerjaan admin paling junior sehingga dokumentasi selalu terbarui. Junior ditentukan oleh berapa banyak pekerjaan yang dia lakukan pada sistem tertentu, kadang-kadang (cukup sering sebenarnya) adalah "manajer grup" yang melakukannya
Kami memiliki perangkat keras khusus yang didedikasikan untuk ini (satu Intel dan satu kotak IBM / AIX) yang spec rendah untuk semuanya kecuali ruang disk, karena kami tidak perlu menjalankan apa pun yang nyata pada host yang dipulihkan.
Cukup banyak pekerjaan dalam beberapa putaran pertama tetapi itu membuat kami merampingkan proses pemulihan yang merupakan bagian penting dari cadangan.
sumber
Karena Anda tampaknya merujuk pada fakta bahwa administrator tidak melihat bahwa pekerjaan cadangan "rusak", dan tidak terlalu banyak sehingga cadangan yang berfungsi tidak berfungsi dengan baik, saya sarankan untuk membuat semacam skrip pemantauan di sekitar cadangan.
Saat membangun solusi cadangan buatan sendiri, saya akan melakukan sesuatu seperti ini:
Setelah semua itu selesai, Anda harus baik-baik saja. Satu hal tambahan yang harus dilakukan adalah melakukan pemulihan tes secara teratur. Jika Anda memiliki perangkat keras tambahan untuk disumbangkan ke penyebabnya.
Di tempat saya bekerja, kami memiliki situs yang hangat, sebulan sekali kami secara acak memilih sistem atau basis data dan pergi ke situs kami yang hangat dan melakukan latihan pemulihan uji coba dengan bare-metal untuk memastikan kemampuan memulihkan data kami.
Sejujurnya, jika data Anda sangat penting bagi Anda, sebaiknya Anda berinvestasi dalam beberapa perangkat lunak untuk mengelola cadangan Anda. Ada ratusan produk di luar sana untuk ini, dari yang murah dan sederhana, hingga kelas perusahaan.
Jika Anda mengandalkan serangkaian skrip tulisan tangan yang berjalan di crontab untuk cadangan perusahaan Anda, cepat atau lambat Anda kemungkinan besar akan terbakar.
sumber
Kami memiliki versi 60% -ukuran 'Referensi' dari sistem 'Produksi' kami, kami menggunakannya untuk pengujian akhir perubahan, kami mengembalikan cadangan 'Produksi' ke sistem ini - ini menguji cadangan plus memastikan kedua lingkungan berada dalam satu sama lain .
sumber
Salah satu pendekatan adalah skrip pekerjaan "pemulihan" untuk dijalankan secara berkala, misalnya yang mengambil file teks tertentu dari cadangan terbaru dan mengirimkan email kepada Anda isinya. Jika memungkinkan, ini harus - setidaknya kadang-kadang - dilakukan dengan menggunakan kotak yang berbeda dari yang membuat atau membuat cadangan data, hanya untuk memastikan itu akan berfungsi jika Anda harus melakukannya. Keuntungannya adalah Anda dapat memastikan mekanisme enkripsi / dekripsi, kompresi, dan penyimpanan semuanya berfungsi dengan baik.
Ini sedikit lebih terlibat untuk backup khusus seperti email dan server database, meskipun melakukan semacam pemulihan skala kecil dari DB kecil atau cadangan kotak surat tingkat bata dan memverifikasi isinya tentu saja mungkin, hanya sedikit lebih terlibat.
Pendekatan ini juga tidak boleh menggantikan pemulihan penuh berkala untuk memastikan Anda dapat memulihkan data jika terjadi keadaan darurat - ini hanya memungkinkan Anda untuk sedikit lebih percaya diri tentang integritas pekerjaan cadangan Anda sehari-hari.
sumber
Saat melakukan tes pemulihan, saya tidak merasa nyaman pada titik "ini terlihat bagus, file dipulihkan, sepertinya tidak ada file yang hilang, bahkan ukurannya cocok", atau pada titik "ini terlihat bagus, saya memulai aplikasi saya. .. tidak crash, menampilkan beberapa data yang layak ".
Saya ingin mengembalikan server / cluster dari awal, dan kemudian benar-benar menggunakannya untuk produksi . Tidak sebentar, tidak selama satu jam, tetapi secara permanen . Jika Anda mengklaim bahwa pengembalian Anda berhasil, maka sama sekali tidak ada alasan untuk tidak memulai produksi. Ini bukan sistem "kotor", yang harus dilupakan. Ini adalah sistem yang akan Anda hadapi setelah bencana nyata. Jadi, jika melewati tahap "terlihat bagus", hiduplah dengan itu. Cadangkan malam berikutnya. Lupakan yang asli. Anda mungkin akan menemukan beberapa gangguan menggunakan pendekatan ini, dan Anda akan dipaksa untuk memperbaiki semuanya . Pemulihan berikutnya dari sistem yang sama memiliki peluang yang layak untuk menjadi 100% berhasil.
Ini termasuk perangkat lunak cadangan dan server Anda. Ya, Anda harus mengembalikan ini juga.
Tidak punya anggaran untuk membeli perangkat keras khusus untuk pemulihan?
sumber
Anda mungkin akan menemukan bahwa beberapa tipe cadangan dapat dengan mudah dikembalikan-diuji oleh skrip (seperti basis data) sementara yang lain memerlukan beberapa input manual (pemulihan Direktori Aktif). Otomatiskan sebanyak mungkin dari ini, pastikan ada semacam pelaporan, dan pastikan "seseorang" melakukan tes manual secara berkala juga. Lingkungan yang terisolasi (salinan downscaled of prod) akan membuatnya lebih mudah untuk melakukan pengujian pemulihan.
sumber
Meskipun kami tidak menguji cadangan, kami memiliki komponen pemeriksaan dan pelaporan cadangan terpusat dalam sistem yang kami kembangkan BackupRadar.com. Jangan ragu untuk memeriksanya untuk melihat apakah itu membantu dengan komponen itu. Itu melampirkan salinan email keberhasilan / kegagalan ke kebijakan cadangan dan juga akan melampirkan tangkapan layar jika perangkat lunak cadangan Anda mampu mengirimnya juga.
Terima kasih, Patrick
sumber
Pastikan aktivitas cadangan dicatat, kemudian tuliskan sesuatu (tentu saja) yang mem-parsing log-log tersebut untuk mencari kegagalan, saring, dan kirimkan sebagai email harian.
sumber