Saya berada di lingkungan yang berisi banyak server Supermicro yang dilengkapi dengan pengontrol RAID perangkat keras Adaptec dan LSI MegaRAID . Pengontrol ini berisi modul cache yang didukung baterai untuk membantu meningkatkan kinerja penulisan dan melindungi data dalam perjalanan.
Masalah dukungan yang sering terjadi adalah kegagalan baterai pengontrol RAID. Ini menggeser array dari mode write-back ke write-through . Jelas ada dampak kinerja negatif karena sistem berjalan dengan kecepatan tulis yang menurun. Ini berlanjut sampai jendela downtime dapat dibuat untuk mematikan sistem dan mengganti baterai.
Ini adalah operasi yang sangat rutin bagi kami; hampir setiap minggu di beberapa ribu server fisik ... Kami bahkan memiliki stasiun pengisian daya untuk menyiapkan baterai pengganti sehingga dapat ditukar tanpa siklus pengisian daya.
Mungkin saya dimanjakan oleh sejarah panjang dengan server HP ProLiant dan pengontrol Smart Array RAID , tetapi sistem HP biasanya memiliki daya tahan baterai 4-6 tahun. Mereka akhirnya menghilangkan penggunaan baterai RAID sekitar 2009. Mereka diganti dengan modul memori yang didukung super-cache (cache tulis yang didukung flash, atau FBWC) dan tidak memerlukan penggantian, pembuangan, atau siklus pengisian awal yang panjang.
Karena saya melihat kegagalan baterai kontroler Adaptec dan LSI kadang-kadang terjadi pada sistem yang telah beroperasi selama kurang dari 12 bulan, saya bertanya-tanya apakah ini umum di lingkungan lain.
Jika ini umum, bagaimana lingkungan server besar lainnya menangani ini?
- Adakah tips atau trik untuk menangani penggantian baterai RAID?
- Apakah ada parameter konfigurasi yang dapat membantu?
- Bagaimana ini mengganggu operasi di lingkungan Anda ?
- Bisakah pendinginan dan suhu sasis yang buruk menjadi faktor?
- Apakah kita melakukan sesuatu yang salah?
- Pengontrol PERC Dell dibuat oleh LSI. Apakah lingkungan Dell mengalami masa pakai baterai pendek yang sama?
Literatur produk LSI menguraikan baterai generasi baru yang dapat bertahan lebih lama dari 1 tahun.
Server HP ProLiant DL585 G2 dengan waktu aktif 1000+ hari dan baterai RAID yang ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK
sumber
Jawaban:
Saya menduga Supermicros Anda rusak atau rusak - mungkin paket baterai terlalu panas. LSI terbaru akan melaporkan suhu melalui MegaCLI - Anda mungkin ingin memantau nilai ini di server yang membutuhkan penggantian.
Saya telah melihat beberapa sistem Dell dan Fujitsu dengan pengontrol LSI BBU, tidak satupun dari mereka memiliki penggantian paket baterai tahunan (kecuali Anda mengacaukan paket dengan deep-discharge). Waktu hidup khas adalah sekitar 3 hingga 5 tahun.
sumber
Usia baterai rata-rata harus 3-5 tahun. Dan jangan lupa bahwa FBWC berbasis flash juga gagal. Saya tidak tahu mengapa / bagaimana, tetapi kami menggantinya dengan peri secara teratur di server HP kami. Saya harus bertahan lebih lama dari baterai, tetapi saya tidak memiliki statistik dari masing-masing server kami.
Cara standar untuk mencegah efek baterai gagal dan pembelajaran baterai adalah memiliki banyak baterai. Ini adalah bagaimana penyimpanan HP (seperti HP EVA) memilikinya. Anda memiliki 2 baterai hot-plug dan ketika satu daya rendah atau diganti, pengontrol bekerja dengan yang tersisa. Saya tidak yakin apakah mungkin untuk memiliki beberapa baterai yang terhubung ke SmartArray, tetapi
hpacucli
diag
output menyarankan itu harus didukung:sumber
Pengalaman saya dengan versi IBM dari platform LSI lebih dari beberapa ratus instalasi adalah bahwa baterai rata-rata hampir membuat 2yrs, dan supercap tidak lebih baik, beberapa di antaranya dapat diperbaiki dengan pembaruan firmware, tetapi LSI belum mendapatkannya Baik. Saya telah mengalami sekitar 75% kegagalan supercap dalam 2 tahun pertama.
sumber