Kami memiliki server Dell PowerEdge T410 yang menjalankan CentOS, dengan array RAID-5 yang berisi 5 disk SATA Seagate Barracuda 3 TB. Kemarin sistem macet (saya tidak tahu persis bagaimana dan saya tidak punya log).
Setelah boot ke BIOS controller RAID, saya melihat bahwa dari 5 disk, disk 1 diberi label sebagai "hilang," dan disk 3 diberi label sebagai "terdegradasi." Saya memaksa disk 3 cadangan, dan mengganti disk 1 dengan hard drive baru (dengan ukuran yang sama). BIOS mendeteksi ini dan mulai membangun kembali disk 1 - namun macet di% 1. Indikator kemajuan pemintalan tidak bergerak sepanjang malam; benar-benar beku.
Apa pilihan saya di sini? Apakah ada cara untuk mencoba membangun kembali, selain menggunakan beberapa layanan pemulihan data profesional? Bagaimana mungkin dua hard drive gagal secara bersamaan seperti itu? Tampaknya terlalu kebetulan. Apakah mungkin disk 1 gagal, dan akibatnya disk 3 "tidak sinkron?" Jika demikian, apakah ada utilitas yang dapat saya gunakan untuk mendapatkannya kembali "dalam sinkronisasi?"
sumber
Jawaban:
Setelah Anda menerima jawaban yang buruk , saya benar-benar minta maaf atas pendapat sesat saya (yang sudah menyimpan array seperti itu beberapa kali).
Disk gagal kedua Anda mungkin memiliki masalah kecil, mungkin kegagalan blok. Ini adalah penyebab, mengapa buruk alat sync dari Anda buruk firmware raid5 jatuh di atasnya.
Anda dapat dengan mudah membuat salinan tingkat sektor dengan alat kloning disk tingkat rendah (misalnya, gddrescue mungkin sangat berguna), dan menggunakan disk ini sebagai disk baru Anda3. Dalam hal ini, array Anda bertahan dengan korupsi data minor.
Saya minta maaf, mungkin sudah terlambat, karena esensi dari jawaban ortodoks dalam kasus ini: "beberapa kegagalan dalam serangan5, ini adalah kiamat!"
Jika Anda ingin raid yang sangat bagus, redundan, gunakan raid software di linux. Sebagai contoh, tata letak data superblok raid-nya bersifat publik dan terdokumentasi ... Saya benar-benar minta maaf, untuk pendapat saya yang lain ini.
sumber
Anda memiliki kegagalan disk ganda. Ini berarti data Anda hilang, dan Anda harus memulihkan dari cadangan. Inilah sebabnya mengapa kita tidak seharusnya menggunakan raid 5 pada disk besar. Anda ingin mengatur serangan Anda sehingga Anda selalu memiliki kemampuan untuk menahan dua kegagalan disk, terutama dengan disk besar yang lambat.
sumber
Pilihan Anda adalah:
sumber
Kegagalan simultan dimungkinkan, bahkan mungkin, karena alasan yang telah diberikan orang lain. Kemungkinan lainnya adalah salah satu disk gagal beberapa waktu sebelumnya, dan Anda tidak memeriksanya secara aktif.
Pastikan pemantauan Anda akan mengambil volume RAID yang berjalan dalam mode terdegradasi segera. Mungkin Anda tidak mendapatkan pilihan tetapi tidak pernah baik untuk mempelajari hal-hal ini dari BIOS.
sumber
Untuk menjawab "Bagaimana dua hard drive bisa gagal secara bersamaan seperti itu?" tepatnya, saya ingin mengutip dari artikel ini :
Jadi, RAID5 tidak aman di 2009. RAID6 akan segera juga. Adapun RAID1, saya mulai membuatnya dari 3 disk. RAID10 dengan 4 disk juga berbahaya.
sumber
Utas sudah tua tetapi jika Anda membaca, pahami saat drive gagal dalam raid raid, periksa usia drive. Jika Anda memiliki beberapa disk dalam raid array dan mereka lebih dari 4-5 tahun, kemungkinan bagus bahwa drive lain akan gagal. *** BUAT GAMBAR atau Cadangan ** sebelum Anda melanjutkan. Jika Anda merasa memiliki cadangan, ujilah untuk memastikan Anda dapat membacanya dan memulihkannya.
Alasannya adalah bahwa Anda menempatkan keausan normal selama bertahun-tahun pada drive yang tersisa saat mereka berputar dengan kecepatan penuh selama berjam-jam. Semakin besar jumlah drive berusia 6 tahun, semakin besar kemungkinan drive lain akan gagal karena stres. Jika RAID5, dan Anda meledakkan array, bagus Anda memiliki cadangan tetapi disk 2TB akan memakan waktu 8 - 36 jam untuk pulih tergantung pada jenis pengontrol serangan dan perangkat keras lainnya.
Kami secara rutin mengganti seluruh sarang serangan di server produksi jika semua drive sudah tua. Mengapa membuang waktu mengganti satu drive, lalu tunggu sampai drive berikutnya gagal dalam sehari, seminggu, sebulan atau dua. Seperti halnya drive, itu tidak sepadan dengan down time.
sumber
Biasanya ketika membeli drive dalam banyak dari pengecer terkemuka Anda dapat meminta drive berasal dari batch yang berbeda, yang penting untuk alasan yang disebutkan di atas. Selanjutnya, inilah tepatnya mengapa RAID 1 + 0 ada. Jika Anda telah menggunakan 6 drive di RAID 1 + 0 Anda akan memiliki data 9TB dengan redundansi langsung di mana tidak diperlukan pembangunan kembali volume.
sumber
Jika controller Anda dikenali oleh dmraid (misalnya di sini ) di linux, Anda mungkin dapat menggunakan ddrescue untuk memulihkan disk yang gagal ke yang baru, dan menggunakan dmraid untuk membangun array, alih-alih controller perangkat keras Anda.
sumber