Apa yang dimaksud dengan tw_cli 3Ware oleh disk “DEGRADED” vs “ECC-ERROR”?

10

Saya punya array RAID yang menyedihkan pada kartu 3ware 9650SE-16ML. Yang tidak bisa saya katakan adalah jika saya baru saja mengalami kegagalan double-disk (gelandangan!) Atau jika saya salah membaca. Output relavent /c0 show alladalah:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

Dan kegagalannya adalah (dari show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

Saya pikir apa yang terjadi adalah p0 gagal, dan kemudian p1 mengalami kesalahan ECC (alias, data saya hilang). Tapi ... mungkin tidak? Itu tetap di 97% dibangun kembali, tetapi tidak bisa melewati kesalahan ini.

Sejauh yang saya tahu, admin sebelumnya mematikan verifikasi berkala, yang membuat kami seperti ini. Ini bukan sesuatu yang kebanyakan orang harus khawatirkan dengan 3Ware RAIDs mereka!

Memperbarui

Setelah mengalahkannya selama beberapa hari, saya melakukan bit IgnoreECC dan itu dibangun kembali, tetapi data saya disembunyikan. Kekecewaan.

Bill Weiss
sumber
Coba metode Freezer Recovery jika ada data penting di dalamnya.
Chris S
Saya tidak menentang trik freezer, tetapi bukan karena mode kegagalan tertentu, bukan hanya "drive saya mati"?
Bill Weiss
Disk yang diberi label DEGRADED adalah disk target dari operasi REBUILD.
wazoox

Jawaban:

7

Kesalahan ECC berarti bahwa setidaknya ada satu sektor yang tidak dapat dibaca pada drive. Namun, jika Anda beruntung, sektor itu mungkin tidak benar-benar digunakan oleh sistem file yang terletak pada volume itu, karena itu Anda mungkin masih dapat menyalin data Anda dari array di negara ini.

Ada juga beberapa opsi untuk mengabaikan kesalahan ECC selama pembangunan kembali:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

Namun, dengan menggunakan opsi ini berarti bahwa garis RAID yang dipengaruhi oleh sektor buruk akan rusak (tidak yakin apa yang akan dilakukan kartu dalam kasus ini - itu mungkin mengganti seluruh garis dengan nol, atau bahkan dengan data acak), oleh karena itu “ pulih "array mungkin sebenarnya memiliki korupsi tidak terdeteksi (jika garis yang terkena berada di tengah-tengah beberapa file data). Menyalin data Anda dari array ke tempat lain sebelum mencoba membangun kembali mungkin lebih aman (setidaknya Anda harus mendapatkan kesalahan ketika mencoba membaca area yang buruk).

Anda harus mengatur verifikasi array yang terjadwal untuk menangkap sektor yang tidak dapat dibaca sebelumnya, sehingga Anda dapat mengganti drive yang baru saja mulai rusak.

Sergey Vlasov
sumber
Saya sedang melakukan bit ignECC sekarang. Tidak terlihat hebat untuk data saya.
Bill Weiss
1
Dan, ya, kita harus membiarkan array memverifikasi dari waktu ke waktu. Saya akan berspekulasi bahwa orang yang mengatur ini mematikannya karena alasan kinerja :(
Bill Weiss
Nah, itu berhasil melalui pembangunan kembali, tetapi tidak memperhatikan data saya. Kekecewaan. Itu akan mengajarkan kita untuk mematikan verifikasi ...
Bill Weiss
4

Saya tidak pernah mengalami drive fisik (p0) untuk masuk ke status DEGRADED, namun Anda mungkin bisa mendapatkan kembali drive ECC-ERROR atau bahkan drive DEGRADED dengan menghapusnya melalui

/c0 p1 remove

dan kemudian menerbitkan kembali

/c0 rescan

memasukkan mereka kembali ke unit serangan via

maint rebuild c0 u0 p1

SATA-Drives yang membuat saya gagal dengan ECC-ERROR saya dapat menghidupkan kembali bahkan jika hanya untuk beberapa jam sebelum gagal lagi.

ZaphodB
sumber
3
Menghapus drive p1 dalam kondisi saat ini kemungkinan akan menyemprot array dengan sempurna.
Sergey Vlasov
Saya melakukan ini dengan drive p0 (dengan asumsi bahwa itu adalah yang buruk) dan sedang mencoba untuk membangun kembali, tetapi menandai drive sebagai DEGRADED segera. Kekecewaan.
Bill Weiss
1
AFAIR, drive tetap ditandai sebagai DEGRADED selama pembangunan kembali - lihat, misalnya, di sini . Yang penting adalah status array (MEMBANGUN KEMBALI atau yang lainnya?).
Sergey Vlasov
Hm Ini sebenarnya adalah pembangunan kembali ... Keempat drive berkedip banyak, itu pertanda baik, kan?
Bill Weiss
Stiiiiiil membangun kembali ... pada 37% setelah 4 jam. Kekecewaan.
Bill Weiss
2

Sangat mungkin data Anda hilang. Kesalahan ECC berarti kesalahan yang tidak dapat dipulihkan saat membaca dari disk ini.

Jika Anda belum memiliki cadangan, Anda dapat mencoba untuk membuang keadaan saat ini dari array. Ini mungkin terjadi karena pengontrol tidak tahu apakah kehilangan data atau hanya area kosong (tidak memiliki wawasan tentang sistem file).

Sven
sumber