Pulihkan dari array RAID yang tertusuk

10

ini situasiku.

Saya memiliki Server Dell dengan kontroler Dell Perc 7i, (LSI Controller).

Saya punya drive yang memberi saya peringatan Kegagalan Diprediksi jadi saya menelepon dukungan mereka dan mereka keluar dan mengganti drive dan array dibangun kembali sendiri, cukup standar.

Dua minggu kemudian, saya memiliki drive lain memberi saya peringatan Kegagalan Diprediksi. Saya pikir mungkin itu adalah kumpulan drive atau kebetulan yang buruk, dll. Jadi saya menghubungi dukungan dan mencari lebih mendalam. Saya menyadari bahwa ada blok buruk di salah satu drive lain yang tidak gagal dan blok buruk itu disalin selama pembangunan kembali. Jadi sekarang saya memiliki blok buruk di semua tempat dan mereka perlahan membunuh array saya. Saya datang untuk menemukan bahwa ini disebut Array Bertusuk.

Jadi saran mereka adalah mengganti semua drive, membangun kembali array, dan memulihkan dari cadangan. Kecuali saya telah mengalami masalah ini selama beberapa minggu yang berarti cadangan saya buruk ... dan jika saya memulihkan dari cadangan dari sebelumnya (sebulan yang lalu) maka saya akan kehilangan data sekitar 4 minggu dari database saya yang sama sekali tidak dapat diterima untuk kantor kami.

Pertanyaan saya adalah ... apakah ada yang pernah pulih dari sesuatu seperti ini tanpa harus kehilangan data atau tanpa keseluruhan (membuang semuanya keluar jendela dan memulai lagi) pendekatan?

Saya memang menemukan satu tautan yang menutupi skenario saya, tidak yakin apakah itu menjelaskan situasi: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

Bantuan atau arahan apa pun akan dihargai! apa yang kalian pikirkan?

pengguna72593
sumber

Jawaban:

15

Sistem Anda saya anggap masih menyala, sehingga hal terbaik untuk dilakukan adalah membuat cadangan langsung , membuang disk / array, membangun kembali, dan memulihkan dari cadangan.

Blok buruk tidak selalu berarti cadangan Anda juga buruk. Jika Anda belum mengalami masalah kinerja atau file yang rusak, maka cadangan Anda masih harus cukup lengkap untuk menyelesaikan pemulihan.

Untuk menguji, ambil cadangan terbaru Anda dan periksa data terpenting Anda. Jika masih utuh, Anda mungkin memiliki cadangan yang baik.

Pada titik ini, ada risiko yang terlibat karena Anda tidak dapat 100% yakin bahwa cadangan Anda baik atau bahwa membuat cadangan sekarang tidak akan menyebabkan kehilangan file. Namun, array Anda pada akhirnya akan gagal dan memaksakan pengembalian, jadi ini adalah satu-satunya pilihan nyata Anda.

Nathan C
sumber
Begitu ya, sekarang semuanya tampak bekerja dengan baik. Jadi jika saya dapat membuat cadangan lengkap sistem saya sekarang, dan saya mengganti drive, membangun kembali array, dan mengembalikan cadangan lengkap ... apakah saya mempertaruhkan kegagalan ini kembali? Atau lebih baik saya menginstal ulang OS dan Perangkat Lunak dan hanya memulihkan database untuk meminimalkan risiko?
user72593
Blok buruk biasanya tidak terjadi pada tingkat file. Saya hanya akan melakukan ini jika Anda menemukan file yang rusak.
Nathan C
@NathanC Anda tidak mendapatkan "blok buruk", Anda mendapatkan data yang korup.
JamesRyan
@ user72593 Hanya karena Anda dapat membuat cadangan file hari ini tidak berarti bahwa mereka tidak akan kehilangan bagian. Satu-satunya cara untuk melihat apa yang baik atau tidak adalah membandingkannya dengan cadangan.
JamesRyan
1
@JamesRyan "Blok buruk" dapat berada di mana saja di disk, termasuk swap, file temp, atau ruang yang sebelumnya digunakan tetapi sekarang tidak digunakan. Ketika drive memiliki blok buruk, itu tidak selalu berarti data hilang.
Nathan C
8

Saat ini juga, lakukan hal berikut:

  • Hentikan memutar cadangan atau menghapus yang lama untuk sistem ini. Anda ingin menyimpan semua cadangan yang Anda miliki saat ini.
  • Ambil cadangan penuh server.

Semoga disk masih cukup baik sehingga data Anda utuh, dan Anda tidak akan menemui masalah dalam menjalankan pencadangan penuh yang baru.

Kemudian memo disk tersebut, dan buat array RAID baru. Setelah siap, coba pulihkan dari cadangan yang Anda ambil sekarang. Dengan sedikit keberuntungan, hanya itu yang perlu Anda lakukan.

Jika gagal, coba yang tertua berikutnya, dan yang tertua berikutnya, dll. Pastikan untuk menguji fungsionalitas sistem - hanya karena boot, tidak berarti itu sepenuhnya operasional. Terutama, uji database untuk korupsi.

Jika Anda harus mengembalikan seluruh sistem dari cadangan yang lebih lama, tidak apa-apa. Ambil cadangan terbaru, dan pulihkan hanya file database dan file penting lainnya. Uji mereka untuk memastikan mereka berfungsi dengan baik. Sekali lagi, jika itu gagal, coba yang tertua berikutnya.

Menggunakan proses ini meminimalkan kehilangan data.

Hibah
sumber
Saya mengerti, itu menjawab pertanyaan saya. Jadi selama cadangan saya utuh, saya baik, jika tidak, maka ... Saya harus menghadapinya. Terima kasih.
user72593
4

Jawaban yang diberikan oleh Grant dan Nathan C sangat bagus dalam hal bagaimana Anda harus melanjutkan penanganan cadangan / pemulihan, dan menangani integritas data.

Berikut adalah beberapa detail yang lebih jelas tentang cara menangani set RAID ketika tiba saatnya untuk membuat ulang disk virtual dan memulihkan dari cadangan:

  • Pastikan Anda memiliki cadangan data yang baik
  • Hapus disk virtual yang ada; Semua disk akan ditampilkan dalam keadaan "siap" sesudahnya
  • Membuat Disk Virtual baru; Pengaturan yang disarankan: baca-depan adaptif, tulis-balik, dan caching disk dinonaktifkan
  • Anda harus memiliki Virtual Disk online dengan inisialisasi latar belakang sedang berlangsung.
  • Lanjutkan dengan memulihkan dari cadangan; Inisialisasi latar belakang biasanya berjalan sekitar 600GB / jam untuk spindle 7.2K, jadi mulailah init jika pemulihan cadangan Anda dapat berjalan lebih cepat dari itu, jika tidak, perangkat lunak cadangan Anda mungkin memiliki beberapa masalah dengan latensi tulis ketika tidak ada ruang baru segera tersedia selama mengembalikan.

Catatan : Jika Anda telah menggunakan RAID5, Anda harus SERIUS mempertimbangkan untuk menggunakan RAID6 saat ini. RAID5 tidak dapat diandalkan untuk data penting bisnis menurut praktik terbaik standar industri saat ini pada susunan ukuran ini. Disk SATA / NL-SAS berkapasitas besar juga memiliki risiko lebih tinggi menghadapi URE selama pembangunan kembali, yang menghasilkan tusukan seperti yang Anda hadapi. RAID6 sangat mengurangi risiko ini, dan umumnya dapat diterima untuk data penting dengan kapasitas drive yang tersedia saat ini.

JimNim
sumber