RAID-6: lebih baik untuk mengganti dua drive mati pada saat yang sama, atau satu per satu?

21

Kami memiliki 16-drive RAID-6 yang memiliki tiga drive bermasalah. Dua sudah mati, dan yang ketiga memberikan peringatan SMART. (Nevermind bagaimana itu dalam keadaan yang buruk.)

Jelas kami ingin mengganti drive yang mati sebelum drive yang masih berfungsi, tetapi apakah lebih baik untuk:

  1. ganti satu drive mati, biarkan RAID membangun kembali, lalu ganti yang lain, dan biarkan membangun kembali; atau

  2. ganti kedua drive sekaligus dan biarkan keduanya dibangun kembali secara paralel?

Dengan kata lain, akankah kita kembali ke kondisi redundansi lebih cepat dengan memperkenalkan satu atau dua drive? Apakah membangun kembali dua drive secara paralel memperlambat proses pembangunan kembali?

Dalam hal itu penting, controller adalah 3ware 9650SE-16ML.

Warren Young
sumber
10
Seberangi semua yang Anda dapatkan yang dapat dilewati dan kirimkan sumbangan besar $ dewa kepada Anda!
user9517 mendukung GoFundMonica
1
Bisakah saya mengajukan satu pertanyaan tentang ini; dapatkah Anda memberi tahu kami tentang merek EXACT dan model disk dalam array ini - jika kecurigaan saya benar, Anda mungkin melihat pertanyaan ini menjadi titik rujukan yang berguna bagi pengguna di masa depan yang mengajukan pertanyaan tertentu. Terima kasih.
Chopper3
8
@ Warren - AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE! Mereka mematikannya? JuJu buruk temanku! Sudah terlambat saat ini, tetapi secara umum mematikan drive (terutama jika mereka adalah drive yang lebih tua yang telah berjalan dan berjalan lama) memberi mereka kesempatan untuk melempar kesalahan pada spinup (dan menyebabkan pengontrol mengatakan "Ya, drive yang digoreng juga sekarang ")
voretaq7
2
@ voretaq7: Saya pernah mengirim semua disk dari kotak MSA-20 ke neraka dengan mematikannya setelah ~ 3 tahun beroperasi dan digunakan terus menerus. Tidak akan pernah melakukannya lagi :-)
karatedog
1
Array sudah habis dan sedang dibangun kembali, jadi saya bisa mendapatkan model yang tepat, untuk siapa saja yang peduli. Hard drive asli adalah ST31000340NS, yang berarti itu adalah versi server dari yang ditanyakan oleh Chopper3. Jadi apakah ini terkenal karena kegagalan atau sesuatu? (Yang baru adalah ST31000524NS.)
Warren Young

Jawaban:

27

!!!!! SATU !!!!!

Lakukan satu per satu, Bung serius, jangan berpikir melakukan hal ini APA PUN dengan cara lain ok.

Hal lain akan menguji keterampilan pemulihan sistem lengkap Anda.

Chopper3
sumber
3
Dua hal yang akan saya tambahkan ke jawaban ini adalah (1) DOA (kepada dewa apa pun yang Anda suka) dan (2) PEMANTAUAN setelah Anda mendapatkan semuanya kembali ke keadaan aman (sehingga Anda akan tahu kapan drive gagal di masa depan dan dapat mengatasi masalah sebelum Anda memiliki dua setengah kegagalan. Opsional Anda juga dapat mengkonfigurasi cadangan panas dalam array untuk masa depan.
voretaq7
3
Atau gunakan RAID 10 </stockanswer>
Chopper3
1
Re: doa , tidak ada komentar. :) Re: monitoring , saya sudah mengadvokasi itu selama bertahun-tahun; mungkin ini akan menyalakan api di bawah seseorang. Re: RAID-10 , terlalu banyak data dalam pasar penawaran; ketika 3 disk TB keluar, kami tidak melipatgandakan redundansi, kami memotong jumlah disk sebanyak 1/3. Mendesah. Re: hot spares , kami melakukan itu sekarang karena drive cukup besar untuk memungkinkan, tetapi server khusus ini adalah 16 drive dalam lampiran 16 drive, ketika 1 TB drive adalah yang terbesar yang bisa Anda dapatkan, dan kami benar-benar membutuhkan semua 14 TB yang tersedia . Pergi ke sistem 24-drive tidak akan berhasil; lihat sebelumnya. :)
Warren Young
2
Jika drive sudah gagal, maka tidak ada alasan untuk tetap di sekitar - lebih tepatnya, saya berharap bahwa dua pembangunan kembali berturut-turut lebih membuat stres untuk drive lain daripada satu.
Simon Richter
1
+1, Ini. Sementara dua pembangunan kembali berturut-turut menambah lebih banyak tekanan dan lebih mungkin menyebabkan drive ketiga gagal sebelum Anda menyelesaikan keduanya, itu juga membangun kembali lebih cepat, dan jika drive marjinal gagal saat membangun kembali disk ke-2, Anda masih tetap online. Jadi cara tercepat dan teraman menuju kondisi toleran-kesalahan adalah satu per satu.
Joel Coel
14

Apakah Anda memiliki cadangan yang bagus dan baru-baru ini? Jika tidak, apakah menurut Anda Anda bisa mendapatkannya dalam waktu yang wajar?

Jujur saya akan lebih khawatir tentang tersandung drive yang buruk offline selama membangun kembali daripada yang lain - Jika Anda sudah melempar kesalahan SMART Anda lebih dari setengah jalan di sana.

Saran saya adalah mengonfirmasi cadangan Anda, lalu membangun kembali satu drive pada satu waktu untuk mencoba memulihkan ke keadaan di mana Anda dapat mengganti yang melempar kesalahan SMART (drive mati dulu, kesalahan-lunak terakhir).

Jika Anda tidak memiliki cadangan, ini adalah omong kosong: Mencadangkan dapat membuat kesalahan lunak yang cukup untuk menandai drive marginal gagal, seperti mungkin mencoba melakukan membangun kembali.

voretaq7
sumber
2
Sebagian besar atau semua data pada array ini adalah sejenis cache, untuk menghindari keharusan menarik terabyte data berulang kali melalui tautan lambat. Semua data cache ini dapat diganti, baik dengan mengunduhnya lagi selama berbulan-bulan (sekali) atau dengan mengirimkannya ke situs yang dapat menyalin dari array lain. Jadi, backup bukan masalahnya. Apa yang kami coba cegah dengan menyimpan array adalah berhari-hari downtime pengiriman server ke depo layanan, mengisi kembali array, dan mengirimkannya kembali.
Warren Young
dalam hal itu, apa yang dikatakan @ chopper3 cukup banyak The Law Of The Land: Membangun kembali satu drive pada satu waktu dan BERDOA BENAR-BENAR KERAS bahwa Anda tidak membuat drive marginal offline dengan beban baca tambahan.
voretaq7
Fiuh - senang mendengarnya.
Chopper3
0

Saya melihat tidak ada gunanya mengubahnya sebagai "satu disk waktu".

Jelas, jika RAID mampu "resilver" kedua disk secara bersamaan ( yang gagal ), Anda hanya menang yang memungkinkan seluruh RAID untuk mendapatkan kembali kemampuannya untuk mempertahankan hingga 2 kegagalan lebih cepat .

poige
sumber
-1

0,02 saya. $

Karena server sudah offline, jalankan ddrescue pada drive yang hampir gagal, untuk mengkloningnya ke drive lain yang waras.

Kemudian, letakkan drive waras yang baru di array. Jika kloning berhasil, Anda akan menghindari risiko melihat bahwa drive gagal selama 2 pembangunan kembali.

Guillaume A
sumber
Ini adalah pengontrol RAID perangkat keras, disk individu tidak dialamatkan.
Chopper3