3Ware RAID6 array terkadang hang. Rusak disk tidak terdeteksi?

13

Kami memiliki server Debian dengan 3Ware 9650SE 8-drive RAID controller, dengan 5 disk RAID6 array, bertindak sebagai host mesin virtual, semua Linux. Masalah terus terjadi dan saya menduga disk rusak tidak terdeteksi.

Kami telah mengalami beberapa gangguan sekarang, di mana tuan rumah dan semua tamu mengatakan bahwa sistem IO diblokir selama 120 detik atau lebih. Kami menduga pengontrol RAID yang salah, tetapi kami menggantinya dengan yang identik dengan firmware yang sama, yang tidak memperbaikinya. Saya tidak berpikir itu akan, karena array RAID1 kedua terus berfungsi dengan baik.

Hampir seminggu yang lalu (Minggu), ketika ini bertingkah, verifikasi otomatis berada di 66%. Tadi malam (Jumat pagi) 67%. Baik sebelum dan sesudah booting, dan keduanya saat mengalami masalah. Ketika saya mematikan verifikasi dengan tw_cli /c0/u0 stop verify, hal-hal menjadi responsif lagi.

Saya menduga itu macet pada kesalahan disk sekitar 66%. Verifikasi otomatis dimulai pada hari Sabtu:

# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM

dan biasanya akan lama dilakukan pada hari Jumat. Melihat bagaimana hari Minggu adalah 66% dan hari Jumat adalah 67%, itu tidak mungkin kebetulan.

'smartctl -a -d 3ware, 0 / dev / twa0' dan 'smartctl -t long' (tes diri SMART yang panjang) pada semua drive tidak menemukan kesalahan. Tidak juga tw_cli /c0 show alarms.

Saya menduga disk rusak dengan cara yang sulit dideteksi, tetapi saya mengambil setiap drive keluar dari array satu per satu, menciptakan array 'tunggal' dari itu dan menemukan nol. Tidak ada disk yang menunjukkan kesalahan.

Atau saran lain?

Edit:

ini tata letaknya:

# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-6    OK             -       -       256K    5587.9    RiW    OFF    
u1    SPARE     OK             -       -       -       1863.01   -      OFF    
u2    RAID-1    OK             -       -       -       1862.63   RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            ST32000542AS        
p1    OK             u0   1.82 TB   SATA  1   -            ST32000542AS        
p2    OK             u0   1.82 TB   SATA  2   -            ST32000542AS        
p3    OK             u0   1.82 TB   SATA  3   -            ST32000542AS        
p4    OK             u0   1.82 TB   SATA  4   -            ST32000542AS        
p5    OK             u1   1.82 TB   SATA  5   -            WDC WD2002FYPS-02W3 
p6    OK             u2   1.82 TB   SATA  6   -            WDC WD2002FYPS-02W3 
p7    OK             u2   1.82 TB   SATA  7   -            WDC WD2002FYPS-02W3 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx

Unit yang dimaksud adalah u0.

edit2:

tw_cli / c0 show diag menunjukkan sesuatu yang menarik (edit3: ini tidak berbahaya, saya tahu itu disebabkan oleh pemanggilan di smartctl -a -d 3ware,X /dev/twa0mana X adalah port yang tidak valid):

QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF

Legacy opcode=0xB1 error=0x10E

E=010E T=14:15:51     : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)

Saya mendapatkan banyak ini. Saya tidak tahu apa artinya itu. Saya bahkan tidak bisa melihat unit atau port mana itu. (edit3: Saya tahu sekarang, tidak berbahaya).

Diberikan edit3 saya, saya kembali ke titik awal. Tidak ada yang menunjukkan disk rusak, kecuali bahwa verifikasi hang pada 66% dan menyebabkan array hang, yang juga kadang-kadang terjadi secara acak. Saya berharap verifikasi akan menemukan kesalahan ...

Halfgaar
sumber
HDD apa? Apakah mereka didukung secara resmi?
grs
Saya menambahkan tata letak. Disk adalah ST32000542AS. Mereka didukung, tetapi lebih dari itu, server bekerja dengan baik selama 3 tahun.
Halfgaar
Saya punya masalah dengan beberapa drive WD menjadi sangat lambat di beberapa titik. hanya hdparm (tidak bisa dilakukan di sini dengan sedih) menunjukkan saya throughput ~ 300KB / s (ya K!) bukan 80 ~ 100MB / s biasa.
Benjamin Sonntag
1
perbedaan antara Enterprise dan disk drive desktop adalah mereka mengatasi bug. Jika drive Perusahaan menemukan kesalahan, disk jatuh dari serangan itu. (seperti di perusahaan yang peka terhadap risiko menyimpan data dan bersedia membayar untuk itu) Jika drive desktop memenuhi kesalahan, itu akan mencoba untuk bertahan sampai semua waktu habis akan berakhir. (Sebagai pengguna satu drive, dan untuk data yang mereka butuhkan untuk mencapai, dan jika mereka jatuh disk sekaligus, produsen akan sangat menyakitkan) rupanya ST32000542AS adalah disk versi desktop yang tenang dan ekonomis. misalnya goo.gl/rWb5lj
Rainbow-
Sebenarnya, baru-baru ini, server ini tiba-tiba hang, berbeda dan lebih parah daripada masalah aslinya, dan log menunjukkan batas waktu pada port RAID. Waktu tunggu habis pada salah satu drive perusahaan (yang mana server ini memiliki lebih banyak sekarang).
Halfgaar

Jawaban:

1

2 hal yang tidak diangkat sejauh ini:

  1. Apakah ini pengontrol SATA RAID? Jika demikian, kabel SATA cenderung mengalami penuaan dan menggantinya dapat dengan mudah menyelesaikan masalah seperti itu. Sebagian besar waktu ini dapat dicoba ketika kesalahan disk, lag, timeout terjadi tetapi nilai-nilai SMART semua ok dan drive melewati semua tes mandiri. Sayangnya menemukan vendor kabel SATA yang baik sulit.
  2. 3 Pengontrol RAID lama dan tidak didukung saat ini. Anda tidak akan mendapatkan peningkatan firmware atau suku cadang. Jika pengontrol Anda mati, RAID mungkin tidak dapat dipulihkan tanpa pengontrol yang sesuai DAN firmware. Pemulihan data yang mahal dibutuhkan.
flohack
sumber
0

Masalah ini mungkin disebabkan oleh salah satu disk yang mengalami kesalahan baca dan memblokir seluruh array hingga berhasil mengatur realokasi sektor atau pengontrol RAID mengasumsikan drive mati dan boot keluar dari array, menandainya sebagai "Degraded" (Ini sepenuhnya tergantung pada controller yang dimaksud). Ini mungkin sering terjadi jika disk mulai mati tetapi masih melewati SMART. Kebanyakan disk konsumen akan terus mencoba membaca selamanya.

Masalah ini diselesaikan di beberapa drive yang ditujukan untuk RAID menggunakan sesuatu yang disebut kontrol pemulihan kesalahan . WD menyebut TLER ini. Dari situs:

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

Pada dasarnya, ini memberitahu sebuah disk bahwa jika ia tidak dapat membaca sektor, untuk menyerah setelah x detik. Ini bagus dalam RAID karena data dapat dipulihkan dari disk lain.

Dari apa yang saya baca, ST32000542AS tidak mengimplementasikan bentuk ERC sehingga mereka dapat memblokir seluruh array. WD2002FYPS sebenarnya mengimplementasikan TLER WD sehingga mereka tidak akan menyebabkan masalah ini.

succulent_headcrab
sumber
0

Hanya untuk memastikan, apa versi firmware Anda?

Ada masalah yang saya alami - yang terdengar sangat mirip dengan yang Anda uraikan - ketika persyaratan berikut dipenuhi:

  • 3ware 96xx series controller
  • RAID 6
  • Ukuran Stripe 256k
  • Versi firmware <v4.10.00.021 *

Pada saat itu tidak ada perbaikan firmware yang tersedia jadi saya bermigrasi dari 256k ke ukuran strip 64k yang juga menyelesaikan masalah. Anda bisa mencoba solusinya, meskipun tentu akan membutuhkan waktu berhari-hari untuk menyelesaikannya.

Kemudian saya mencoba firmware baru (* 4.10.00.021 saya pikir sudah diperbaiki) dengan 256k dan bekerja seperti pesona. 4.10.00.027 adalah versi terbaru.

Acrklor
sumber
Kami tidak memiliki masalah lagi. Verifikasi selalu berhasil. Namun kami mendapatkan server lengkap hang beberapa bulan yang lalu (setelah lama tidak ada masalah). Dmesg mengatakan bahwa disk x kehabisan waktu. Saya tidak tahu mengapa controller tidak menendang, tetapi meskipun itu tidak secara eksplisit ditandai sebagai terdegradasi, saya menggantinya. Dan, disk lain telah diganti sejak saat itu juga. Jadi sepertinya itu masalah disk.
Halfgaar
0

Saya dulu memiliki masalah dengan pengontrol 3ware dan drive Seagate. Ada ketidakcocokan firmware yang halus. Saya beralih ke drive Samsung, masalah terpecahkan.

Zdenek
sumber