Bagaimana memulihkan dari kegagalan drive dalam konfigurasi RAID 5?

15

Pagi ini drive gagal di server database kami. Array drive (3 disk) diatur dalam konfigurasi RAID 5.

Sementara kami menunggu penggantian drive, kami sedang mempersiapkan strategi pemulihan. Pengguna terus bekerja pada sistem, meskipun sangat lambat (tidak tahu kenapa ??).

Bagaimana seseorang menginstal drive baru - akankah data untuk drive ini secara otomatis dibangun kembali dari paritas atau adakah proses lain yang harus kita ikuti?

Sunting: Ini adalah pengontrol RAID perangkat keras. (Terima kasih atas jawabannya sejauh ini, dihargai)

Philip Fourie
sumber
4
By the way, waktu untuk memutuskan apa yang harus dilakukan jika drive gagal pada server kritis adalah sebelum drive gagal di server kritis.
David Schwartz

Jawaban:

15

Sistem berjalan sangat lambat karena harus merekonstruksi data yang hilang yang melibatkan CPU dan I / O tambahan.

Jika Anda memiliki disk yang hilang dalam konfigurasi RAID-5 Anda tidak memiliki strategi pemulihan . Jika disk lain turun Anda akan kehilangan data Anda . Lari, jangan berjalan, ke vendor terdekat tempat Anda bisa mendapatkan bagian yang kompatibel yang tercakup oleh garansi pabrik yang dikirim oleh kurir darurat di hari yang sama. Jika vendor tempat Anda membeli array sudah dalam proses mendapatkan bagian, dapatkan kedua bagian dan simpan yang lainnya sebagai cadangan.

Jika Anda memiliki RAID-5 yang digunakan untuk sistem produksi, Anda harus mempertimbangkan untuk meninggalkan disk cadangan dalam array sebagai cadangan panas.

Ditambahkan - Jika log Anda tidak pada volume yang terpisah (disk secara fisik terpisah) pindahkan ke set disk yang terpisah, bahkan hanya satu pasangan cermin. Ini juga akan menjadi kemenangan kinerja jika database Anda memiliki beban yang signifikan karena pertentangan pada volume log memiliki pengaruh buruk yang tidak proporsional pada kinerja.

Jika ini memungkinkan, Anda juga dapat membuat basis data Anda lebih kuat dengan melakukan hal berikut:

  1. Matikan basis data.
  2. Cadangkan basis data.
  3. Pindahkan log ke set disk yang terpisah secara fisik (pastikan Anda mengkonfigurasi ulang database sehingga tahu ke mana log telah dipindahkan ke).
  4. Mulai ulang basis data dan aplikasi.

Jika Anda memiliki log pada volume yang terpisah, Anda dapat memulihkan dan memutar ke depan dari cadangan jika dan hanya jika kegagalan disk tidak membahayakan log. Log database harus pada volume disk terpisah untuk (antara lain) alasan berikut:

  • Pola penggunaan log sebagian besar berurutan, menambahkan entri log ke bagian akhir file (file tersebut pada dasarnya adalah buffer cincin). Ini berarti bahwa sejumlah besar entri log dapat ditulis dengan cepat karena ada sedikit aktivitas mencari kepala disk.

  • Jika mereka berbagi disk fisik dengan beban kerja akses yang sangat acak (misalnya tabel dan indeks transaksional), disk tersebut akan melambat secara tidak proporsional karena aktivitas pencarian kepala mengganggu penulisan berurutan.

  • Memiliki log pada volume terpisah hampir selalu merupakan kemenangan kinerja dan hanya perlu satu pasangan cermin untuk log untuk mendukung beban kerja yang cukup berat. Ini berarti bahwa perangkat keras untuk melakukannya cukup murah, sehingga ada biaya kecil untuk kinerja besar dan keandalan menang.

  • Jika array data Anda turun, log tidak akan hilang. Jika Anda memiliki strategi cadangan yang tepat, Anda dapat memulihkan dari cadangan dan memutar foward dari log. Ini berarti bahwa seluruh array dapat turun di server tanpa satu titik kegagalan. Log dan array data harus gagal secara bersamaan untuk menyebabkan kehilangan data.

ConcernedOfTunbridgeWells
sumber
Terima kasih atas jawabannya, terutama menjelaskan mengapa sistem berjalan lambat.
Philip Fourie
Spot on. Saya bahkan menyarankan untuk mematikannya sampai Anda mendapatkan drive pengganti di tempatnya. Seperti kata Nigel, Anda tidak memiliki strategi pemulihan. Kehilangan drive lain, lepas semuanya.
Stu Thompson
Hai Nigel, terima kasih telah meluangkan waktu dan berbagi keahlian Anda. Sungguh nasihat yang bagus. Saya akan melaporkan kembali nanti hasil dari pemulihan.
Philip Fourie
5

1) Cadangan.

Saat ini tidak ada data yang hilang. Jika cadangan Anda tidak cadangan sekarang.

2) Baca manual, hubungi vendor dll.

Sistem RAID yang berbeda memiliki langkah berbeda untuk mengganti disk, dan melakukan kesalahan Anda berisiko menghancurkan seluruh array. Tanpa mengetahui jenis perangkat keras / lunak RAID yang Anda miliki, kami hanya dapat menebak langkah-langkah yang diperlukan.

Juga, kinerja yang lambat adalah karena RAID 5 dalam keadaan terdegradasi (yaitu: satu disk mati) memiliki kinerja baca yang mengerikan. Betapa mengerikannya tergantung pada bagaimana paritas disimpan dan disk mana yang mati, tetapi berita "bagus" adalah kinerja yang lambat dengan satu disk hilang adalah masalah yang diketahui dan tidak menyebabkan kepanikan.

DrStalker
sumber
4

Pertama saya akan membaca manual untuk perangkat keras / lunak yang Anda gunakan - bagian untuk pemulihan kegagalan :)

Seharusnya masalah sederhana mengganti disk dan membangun kembali array.

Poin paling penting dalam kasus tersebut adalah disk harus diganti sesegera mungkin karena jika disk lain gagal Anda mungkin akan kehilangan data. Anda juga harus mengatasi penyebab kegagalan - apakah itu karena disk semakin tua? Haruskah Anda mengganti yang lain juga? Atau apakah itu karena lonjakan listrik, panas atau getaran?


sumber
1
mungkin kehilangan data? Hampir pasti kehilangan semua data pada array! Pergi ke Penjara, jangan lulus Pergi. (Menyisihkan cadangan, tentu saja.)
Stu Thompson
1

Sejauh yang saya mengerti RAID5, ketika Anda mengganti drive yang gagal, itu secara otomatis dibangun kembali, dari informasi yang tersimpan di dua lainnya. Apakah Anda dapat 'hot-swap' drive baru ke tempatnya tergantung pada sistem Anda - Anda mungkin harus mematikan dulu. Either way, mengingat biaya yang relatif rendah dari drive, dan pentingnya data Anda (Tercermin oleh keputusan Anda untuk menggunakan RAID5 di tempat pertama), Anda benar-benar harus memiliki drive cadangan, duduk di laci, siap menghadapi kemungkinan seperti itu .

Saya baru-baru ini membangun PC pengembangan baru untuk saya sendiri, dan mengatur drive data utama di bawah RAID5. Saya memesan satu drive lagi dari yang diperlukan, sehingga saya punya cadangan siap untuk saat darurat (Bahwa saya berharap tidak akan terjadi)

Sekarang Anda telah mengajukan pertanyaan, saya kira saya sebaiknya membaca tentang masalah ini lagi.


sumber
Untuk volume data kecil, sepasang cermin lebih baik karena biasanya memiliki kecepatan akses sekuensial yang lebih baik daripada RAID-5 kecil. Jika Anda ingin hot-swap, lihat beberapa sistem hot-swap bay di suatu tempat seperti scsi4me.com
ConcernedOfTunbridgeWells
0

Benar-benar tergantung pada sistem. Apa yang dikatakan manual? Apakah perangkat keras Anda sepenuhnya mendukung hotplugging drive baru dari controller ke bay drive? Apakah Anda memiliki cadangan terbaru?


sumber
0

Posting NXC merangkumnya dengan baik. Kalau-kalau Anda tidak mengganti drive yang rusak sebelum yang kedua gagal, masih ada peluang bagus untuk memulihkan hampir semuanya (terkadang semuanya) oleh layanan pemulihan khusus. Data masih ada di disk, dan disk yang gagal biasanya dapat dihidupkan kembali di lab khusus dengan peralatan yang tepat. Namun harga untuk layanan ini cukup tinggi. Memiliki disk cadangan dan cadangan yang tepat (sesuai saran NXC) jelas merupakan cara untuk pergi di masa depan.


sumber