Perangkat keras RAID pengontrol cache frekuensi kegagalan baterai / masa pakai?

14

Saya berada di lingkungan yang berisi banyak server Supermicro yang dilengkapi dengan pengontrol RAID perangkat keras Adaptec dan LSI MegaRAID . Pengontrol ini berisi modul cache yang didukung baterai untuk membantu meningkatkan kinerja penulisan dan melindungi data dalam perjalanan.

Masalah dukungan yang sering terjadi adalah kegagalan baterai pengontrol RAID. Ini menggeser array dari mode write-back ke write-through . Jelas ada dampak kinerja negatif karena sistem berjalan dengan kecepatan tulis yang menurun. Ini berlanjut sampai jendela downtime dapat dibuat untuk mematikan sistem dan mengganti baterai.

Ini adalah operasi yang sangat rutin bagi kami; hampir setiap minggu di beberapa ribu server fisik ... Kami bahkan memiliki stasiun pengisian daya untuk menyiapkan baterai pengganti sehingga dapat ditukar tanpa siklus pengisian daya.

Mungkin saya dimanjakan oleh sejarah panjang dengan server HP ProLiant dan pengontrol Smart Array RAID , tetapi sistem HP biasanya memiliki daya tahan baterai 4-6 tahun. Mereka akhirnya menghilangkan penggunaan baterai RAID sekitar 2009. Mereka diganti dengan modul memori yang didukung super-cache (cache tulis yang didukung flash, atau FBWC) dan tidak memerlukan penggantian, pembuangan, atau siklus pengisian awal yang panjang.

Karena saya melihat kegagalan baterai kontroler Adaptec dan LSI kadang-kadang terjadi pada sistem yang telah beroperasi selama kurang dari 12 bulan, saya bertanya-tanya apakah ini umum di lingkungan lain.

Jika ini umum, bagaimana lingkungan server besar lainnya menangani ini?

  • Adakah tips atau trik untuk menangani penggantian baterai RAID?
  • Apakah ada parameter konfigurasi yang dapat membantu?
  • Bagaimana ini mengganggu operasi di lingkungan Anda ?
  • Bisakah pendinginan dan suhu sasis yang buruk menjadi faktor?
  • Apakah kita melakukan sesuatu yang salah?
  • Pengontrol PERC Dell dibuat oleh LSI. Apakah lingkungan Dell mengalami masa pakai baterai pendek yang sama?

Literatur produk LSI menguraikan baterai generasi baru yang dapat bertahan lebih lama dari 1 tahun. masukkan deskripsi gambar di sini

Server HP ProLiant DL585 G2 dengan waktu aktif 1000+ hari dan baterai RAID yang ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
putih
sumber
2
Sekedar petunjuk: Generasi terakhir dari pengontrol Adaptec menggunakan supercaps / flash sebagai ganti baterai juga.
Sven
Oh, saya sadar bahwa semua produsen memiliki solusi berbasis supercap sekarang , tetapi mengingat jejak instalasi yang ada, sulit untuk membuat perubahan luas di seluruh infrastruktur.
ewwhite
2
Saya belum pernah melakukan ini (mungkin karena itu terdengar seperti ide yang buruk dan saya belum memiliki masalah sesering Anda), tetapi Anda dapat mencoba mengganti baterai RAID pada server uji saat sedang aktif. Geser keluar, lepaskan penutup, lepaskan baterai yang buruk, dan hubungkan yang baik, lalu kembali ke rak ... Jika semuanya berjalan dengan baik, Anda memiliki proses penggantian baterai baru yang tidak melibatkan waktu henti.
Agustus
2
@ Agustus Uhm, saat prosedur berisiko berjalan, ini terdengar cukup tinggi pada daftar "OMG WHERE DID MY GO DATA GO".
Dan
2
Ya tentu saja ... Saya setuju itu terdengar seperti ide yang mengerikan, tetapi mengingat situasi dan persyaratan untuk tidak ada downtime, mungkin layak dicoba pada server pengujian (atau tiga puluh server pengujian ...) untuk melihat apakah bisa jadi. Apa pilihan lain selain mengulang infrastruktur untuk tidak bergantung pada baterai RAID individual di ribuan server?
Agustus

Jawaban:

9

Saya menduga Supermicros Anda rusak atau rusak - mungkin paket baterai terlalu panas. LSI terbaru akan melaporkan suhu melalui MegaCLI - Anda mungkin ingin memantau nilai ini di server yang membutuhkan penggantian.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

Saya telah melihat beberapa sistem Dell dan Fujitsu dengan pengontrol LSI BBU, tidak satupun dari mereka memiliki penggantian paket baterai tahunan (kecuali Anda mengacaukan paket dengan deep-discharge). Waktu hidup khas adalah sekitar 3 hingga 5 tahun.

the-wabbit
sumber
4
Saya akan menambahkan bahwa kecuali sistem secara eksplisit mengijinkan penggantian panas dari BBU RAID saya tidak akan mencobanya. Saya belum pernah melihat sistem yang membutuhkan penggantian baterai cache RAID tahunan. 3-5 tahun adalah kehidupan pelayanan yang khas.
voretaq7
Saya pikir Anda mengerti!
ewwhite
1

Usia baterai rata-rata harus 3-5 tahun. Dan jangan lupa bahwa FBWC berbasis flash juga gagal. Saya tidak tahu mengapa / bagaimana, tetapi kami menggantinya dengan peri secara teratur di server HP kami. Saya harus bertahan lebih lama dari baterai, tetapi saya tidak memiliki statistik dari masing-masing server kami.

Cara standar untuk mencegah efek baterai gagal dan pembelajaran baterai adalah memiliki banyak baterai. Ini adalah bagaimana penyimpanan HP (seperti HP EVA) memilikinya. Anda memiliki 2 baterai hot-plug dan ketika satu daya rendah atau diganti, pengontrol bekerja dengan yang tersisa. Saya tidak yakin apakah mungkin untuk memiliki beberapa baterai yang terhubung ke SmartArray, tetapi hpacucli diagoutput menyarankan itu harus didukung:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         
Marki555
sumber
1

Pengalaman saya dengan versi IBM dari platform LSI lebih dari beberapa ratus instalasi adalah bahwa baterai rata-rata hampir membuat 2yrs, dan supercap tidak lebih baik, beberapa di antaranya dapat diperbaiki dengan pembaruan firmware, tetapi LSI belum mendapatkannya Baik. Saya telah mengalami sekitar 75% kegagalan supercap dalam 2 tahun pertama.

Menandai
sumber