Saya punya array RAID yang menyedihkan pada kartu 3ware 9650SE-16ML. Yang tidak bisa saya katakan adalah jika saya baru saja mengalami kegagalan double-disk (gelandangan!) Atau jika saya salah membaca. Output relavent /c0 show all
adalah:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
Dan kegagalannya adalah (dari show alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
Saya pikir apa yang terjadi adalah p0 gagal, dan kemudian p1 mengalami kesalahan ECC (alias, data saya hilang). Tapi ... mungkin tidak? Itu tetap di 97% dibangun kembali, tetapi tidak bisa melewati kesalahan ini.
Sejauh yang saya tahu, admin sebelumnya mematikan verifikasi berkala, yang membuat kami seperti ini. Ini bukan sesuatu yang kebanyakan orang harus khawatirkan dengan 3Ware RAIDs mereka!
Memperbarui
Setelah mengalahkannya selama beberapa hari, saya melakukan bit IgnoreECC dan itu dibangun kembali, tetapi data saya disembunyikan. Kekecewaan.
Jawaban:
Kesalahan ECC berarti bahwa setidaknya ada satu sektor yang tidak dapat dibaca pada drive. Namun, jika Anda beruntung, sektor itu mungkin tidak benar-benar digunakan oleh sistem file yang terletak pada volume itu, karena itu Anda mungkin masih dapat menyalin data Anda dari array di negara ini.
Ada juga beberapa opsi untuk mengabaikan kesalahan ECC selama pembangunan kembali:
Namun, dengan menggunakan opsi ini berarti bahwa garis RAID yang dipengaruhi oleh sektor buruk akan rusak (tidak yakin apa yang akan dilakukan kartu dalam kasus ini - itu mungkin mengganti seluruh garis dengan nol, atau bahkan dengan data acak), oleh karena itu “ pulih "array mungkin sebenarnya memiliki korupsi tidak terdeteksi (jika garis yang terkena berada di tengah-tengah beberapa file data). Menyalin data Anda dari array ke tempat lain sebelum mencoba membangun kembali mungkin lebih aman (setidaknya Anda harus mendapatkan kesalahan ketika mencoba membaca area yang buruk).
Anda harus mengatur verifikasi array yang terjadwal untuk menangkap sektor yang tidak dapat dibaca sebelumnya, sehingga Anda dapat mengganti drive yang baru saja mulai rusak.
sumber
Saya tidak pernah mengalami drive fisik (p0) untuk masuk ke status DEGRADED, namun Anda mungkin bisa mendapatkan kembali drive ECC-ERROR atau bahkan drive DEGRADED dengan menghapusnya melalui
dan kemudian menerbitkan kembali
memasukkan mereka kembali ke unit serangan via
SATA-Drives yang membuat saya gagal dengan ECC-ERROR saya dapat menghidupkan kembali bahkan jika hanya untuk beberapa jam sebelum gagal lagi.
sumber
Sangat mungkin data Anda hilang. Kesalahan ECC berarti kesalahan yang tidak dapat dipulihkan saat membaca dari disk ini.
Jika Anda belum memiliki cadangan, Anda dapat mencoba untuk membuang keadaan saat ini dari array. Ini mungkin terjadi karena pengontrol tidak tahu apakah kehilangan data atau hanya area kosong (tidak memiliki wawasan tentang sistem file).
sumber