Bagaimana saya mendapat pemberitahuan, ketika mesin Linux yang dilengkapi dengan memori ECC mengenali kegagalan memori? Saya tertarik pada kesalahan yang bisa diperbaiki dan tidak bisa diperbaiki.
- jika pesan ditulis ke dmesg / syslog, ini sudah baik, tapi saya ingin tahu apa yang harus dicari
- menginstal daemon tambahan (seperti smartmontools untuk hard drive) dapat diterima
- Pemantauan nagios / Icinga akan menjadi cara lain
- tidak semua mesin yang dipantau memiliki IPMI
Sistem yang menarik memiliki papan Supermicro (X9SCM-F), mengenai HP N54L Microserver. Saya hanya ingin tahu, tetapi tidak terlalu peduli. Semua sistem menjalankan Debian atau Ubuntu Linux.
mcelog
sambil memantau syslog sepertinya cara untuk pergi.Jawaban:
The Linux kernel mendukung deteksi kesalahan dan koreksi ( EDAC ) fitur dari beberapa chipset. Pada sistem yang didukung dengan ECC , status pengontrol memori Anda dapat diakses melalui sysfs:
Pohon direktori di bawah lokasi itu harus sesuai dengan perangkat keras Anda, misalnya:
Bergantung pada perangkat keras Anda, Anda mungkin harus secara eksplisit memuat driver edac yang tepat, cf .:
The
edac-utils
paket menyediakan antarmuka baris perintah dan perpustakaan untuk mengakses data, misalnya:Anda dapat mengatur beberapa jenis cron-job yang secara berkala memanggil
eac-util
dan memasukkan hasilnya ke dalam sistem pemantauan Anda, di mana Anda kemudian dapat mengkonfigurasi beberapa notifikasi.Selain itu, menjalankan
mcelog
umumnya merupakan ide yang baik. Tergantung pada sistem, tetapi kesalahan ECC yang tidak dapat diperbaiki / diperbaiki kemungkinan dilaporkan sebagai pengecualian pemeriksaan mesin ( MCE ), juga. Maksudku, bahkan periode singkat pembatasan CPU karena suhu yang lebih tinggi dilaporkan sebagai MCE.sumber
mcelog
akan memantau pengontrol memori dan melaporkan peristiwa kesalahan memori ke syslog, dan dalam beberapa konfigurasi dapat offline halaman memori buruk . Ini, tentu saja, di samping penggunaannya yang biasa untuk memantau pengecualian pemeriksaan mesin dan berbagai kesalahan perangkat keras lainnya.Sebagian besar distribusi Linux memiliki layanan yang diatur untuk menjalankannya sebagai daemon, misalnya untuk EL 6:
sumber
Ini tergantung pada perangkat keras server Anda. Papan tulis atau sistem Supermicro akan menangani ini secara berbeda dari Dell, HP atau IBM ...
Salah satu fitur nilai tambah dari server kelas atas adalah adanya tingkat integrasi perangkat keras / OS. Server yang lebih baik akan melaporkan apa yang Anda cari sebagai bagian dari agen manajemen dan / atau solusi manajemen out-of-band (ILO, DRAC, IPMI).
Anda harus menggunakan alat yang asli untuk platform perangkat keras Anda.
Kutipan dari server HP ProLiant yang menjalankan Linux dan agen Manajemen HP:
dan
atau yang lebih parah
atau yang terburuk ... Mengabaikan kesalahan selama 6 hari sampai server mogok karena RAM yang buruk
Ini dicatat, ditambah perangkap SNMP dan email dikirim.
Secara umum, Anda akan melihat Pengecekan Pemeriksaan Mesin di buffer cincin kernel, sehingga Anda dapat memeriksa
dmesg
atau menjalankan mcelog . Dalam pengalaman saya dengan Supermicro gear tanpa IPMI, itu tidak menangkap segalanya, dan saya masih memiliki kesalahan RAM yang menyelinap melalui celah dan menyebabkan pemadaman. Sayangnya, ini menyebabkan kebijakan burn-in RAM kuno sebelum penyebaran sistem.sumber