DL380 G5, RAID5, ext3, RAID Gagal

9

Kami memiliki server HP DL380G5 lama, dengan 5 300GB SCSI 3.5 '' disk dalam array RAID5, di ruang eksternal, diformat sebagai volume logis dengan filesystem ext3, yang menampung 1,2 TB data pasien klinis yang sensitif.

Dua disk menunjukkan kegagalan prediktif pada hpacucli, jadi saya mengganti salah satunya terlebih dahulu, dan melihat bahwa itu OK, tetapi saya tidak melihat bahwa itu juga menyatakan "Siap untuk membangun kembali". Saya benar-benar sembarangan mengubah yang kedua juga, dan sekarang dikatakan bahwa RAID telah GAGAL.

Saya mengembalikan disk lama, mencoba me-reboot server tetapi sekarang menempatkan saya ke mode pemulihan selama boot, dan mengatakan tidak dapat menemukan volume logis.

Adakah yang bisa saya lakukan untuk mencoba mengembalikan ini? Sayangnya, kami tidak memiliki cadangan. Bantuan apapun akan sangat dihargai!

Saya sedang berpikir tentang mengembalikan KEDUA drive lama kembali, apakah ada kemungkinan ini akan menghidupkan kembali RAID?

kurang baik
sumber
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
Michael Hampton
4
Saya membayangkan grup Anda akan mulai membuat cadangan sekarang. Jika pernah menjadi masalah kebutuhan atau biaya, ini harus menjadi tembakan peringatan yang cukup jelas.
Jonathon Reinhart

Jawaban:

25

Maafkan saya. Tapi ini kesalahan operator.

Anda memiliki dua disk yang gagal pada array RAID5, dan Anda menghapus lebih banyak disk daripada yang bisa dipertahankan oleh array.

Melakukan ini tanpa cadangan adalah kesalahan yang lebih besar.

Anda harus menghubungi perusahaan pemulihan data untuk mencoba mengambil data dari Drive Logical yang rusak.

putih
sumber
1
Kedengarannya dia tahu itu kesalahan operator ... Itu bukan alasan untuk tidak bertanya apa yang bisa dia lakukan sekarang
StarWeaver
@StarWeaver Ya ... menghubungi perusahaan pemulihan data adalah langkah selanjutnya yang sesuai.
ewwhite
11

Jangan nyalakan kembali sistem. Matikan, panggil layanan pemulihan data. Ada sejumlah layanan yang memungkinkan pemulihan jarak jauh dari jenis kegagalan ini. Pada titik ini, yang bisa Anda lakukan adalah memperburuknya.

Ini sering melibatkan menghubungkan semua drive secara langsung ke HBA yang dikenal baik (bukan kartu RAID atau pengontrol lain!) Dan memulai citra linux yang dapat diunduh khusus dengan alat manajemen jarak jauh. Perusahaan kemudian mengakses sistem dari jarak jauh, menilai status disk, dan memulihkan metadata RAID yang tersisa. Menggunakan perangkat lunak berpemilik, mereka dapat merakit ulang disk RAID virtual (detail teknis: sering kali sesuatu yang dihubungkan ke sistem perangkat-mapper Linux standar). Ini kemudian memperlihatkan RAID hanya-baca dalam perangkat lunak (tanpa akselerator SoC RAID). Langkah selanjutnya adalah memverifikasi data tidak rusak dari penggunaan dan kloning disk virtual ke disk baru untuk menyelesaikan pemulihan data. Setelah itu Anda dapat khawatir tentang mendapatkan kembali sistem dan berjalan.

Meskipun saya tidak akan menyebutkan nama layanan apa pun di sini, sebagian besar dari mereka mudah ditemukan, dan untuk layanan dengan layanan jarak jauh (menghemat bolak-balik pengiriman drive RAID + drive pemulihan kepada mereka dan menunggu pemulihan + klon dan kemudian mereka mengirimnya kembali) Anda mendapatkan manfaat dari data yang tidak pernah benar-benar meninggalkan fasilitas Anda.


Sejumlah kecil berita baik: selama pengontrol RAID (atau Anda) tidak menulis data baru ke cakram apa pun, dan peringatan pra-gagal bukanlah peringatan gagal, praktis ada peluang 99,9999% tim pemulihan data yang baik dapat memulihkan semuanya, dan cukup cepat juga.

John Keates
sumber
5

Re: mengembalikan drive lama.

Karena RAID Anda benar-benar mati, Anda tidak akan rugi dengan memasang ulang kedua drive yang gagal.

Pasang di teluk asli.

Ingat mereka pra-gagal, tidak gagal, jadi ada kemungkinan mereka akan berjalan cukup lama untuk menyelamatkan data Anda.

Ada kemungkinan serangan itu tidak akan muncul, dan kecil kemungkinan controller akan meminta untuk "mengatur ulang" serangan itu (pilih TIDAK / BATAL) dan kecil kemungkinan controller serangan itu secara otomatis mengatur ulang serangan yang akan meniadakan nilai apa pun ditambahkan oleh perusahaan pemulihan data.

Jadi prioritas utama Anda jika RAID muncul, adalah untuk mendapatkan data. Itu berarti memiliki setidaknya 1,2 ruang TB tersedia dan siap untuk menyalin data, dan alat seperti robocopyatau xcopy32atau dalam kasing linux Anda rsync siap untuk dijalankan. Anda tidak ingin membuang waktu membaca halaman manual dan mencari tahu sintaksanya jika drive Anda menghabiskan menit-menit terakhirnya.


Setelah data Anda aman, buat ulang serangan itu sebagai serangan6 dengan drive baru. Anda akan menjatuhkan kapasitas 300GB, tetapi mendapatkan toleransi dua drive. Atau tambahkan drive tambahan dan pertimbangkan raid10 lebih dari 6 drive. Atau pertimbangkan untuk sepenuhnya menghentikan mesin ini; G5 berusia lebih dari 10 tahun dan benar-benar tidak cocok untuk tugas-tugas produksi penting lagi.

Dan tidak mencoba memasukkan boot, tetapi mengatur solusi cadangan yang tepat juga. Akan ada waktu berikutnya.

Criggie
sumber
2
Hanya untuk memperjelas - ada peluang kecil namun tidak nol yang melakukan hal ini akan mempersulit perusahaan pemulihan data komersial untuk berhasil membantu Anda. Secara pribadi saya akan mencoba untuk menyusun kembali serangan itu, dan jika itu tidak berhasil maka ambil persediaan.
Criggie