“Mce: [Kesalahan Perangkat Keras]: Peristiwa pemeriksaan mesin yang dicatat” muncul di syslog. Apa yang harus saya lakukan?

19

Saya telah menginstal versi terbaru OSSEC (2.8.1) dan saya juga telah mengaktifkan notifikasi email. Dan saya mendapatkan banyak pemberitahuan semacam ini yang mengatakan bahwa ada Kesalahan Perangkat Keras dan sesuatu tentang mce:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

Jadi apa sebenarnya artinya ini? Apa arti mce? Dan apakah ini merupakan kesalahan perangkat keras yang harus saya khawatirkan?


Informasi OS:

Description:    Ubuntu 14.10
Release:    14.10
Eric Carvalho
sumber
Anda perlu membaca sedikit tentang ossec, lihat aturannya - ossec-docs.readthedocs.org/en/latest/manual/rules-decoders . Antarmuka web membantu karena memiliki sejumlah penjelasan - ossec.net/wiki/index.php/OSSECWUI:Install
Panther
ossec mungkin kurang didukung atau di luar topik di sini karena tidak ada dalam repositori ubuntu
Panther
1
Ini bukan tentang OSSEC sama sekali. Anda mendapat pemberitahuan itu karena OSSEC menemukan kata "kesalahan" di syslog. Meskipun saya tidak berpikir itu di luar topik, Anda mungkin akan mendapatkan lebih banyak bantuan dari Unix & Linux atau Server Fault .
Eric Carvalho
4
@ bodhi.zazen Semua yang harus dilakukan untuk menjadi-topik dijalankan di Ubuntu. Sekarang bukan berarti Anda akan mendapat jawaban, tentu saja.
Seth

Jawaban:

23

Pengecekan Pemeriksaan Mesin :

Sebuah Mesin Periksa Pengecualian (MCE) adalah jenis kesalahan perangkat keras komputer yang terjadi ketika central processing unit komputer mendeteksi masalah hardware.

Komputer Anda mengalami kesalahan perangkat keras dan kernel mencatat suatu peristiwa di buffer. Anda dapat menggunakan mceloguntuk login dan melihat acara pemeriksaan mesin. Dari mceloghalaman manual :

CPU X86 melaporkan kesalahan yang terdeteksi oleh CPU sebagai peristiwa pemeriksaan mesin (MCE). Ini bisa berupa korupsi data yang terdeteksi di cache CPU, di memori utama oleh pengontrol memori terintegrasi, kesalahan transfer data di bus sisi depan atau interkoneksi CPU atau kesalahan internal lainnya. Kemungkinan penyebabnya bisa radiasi kosmik, catu daya yang tidak stabil, masalah pendinginan, perangkat keras yang rusak, sistem yang berjalan di luar spesifikasi, atau nasib buruk.

Sebagian besar kesalahan dapat diperbaiki oleh CPU dengan mekanisme koreksi kesalahan internal. Kesalahan yang tidak dikoreksi menyebabkan pengecualian pemeriksaan mesin yang dapat mematikan proses atau membuat panik mesin. Sejumlah kecil kesalahan yang diperbaiki biasanya bukan alasan untuk khawatir, tetapi sejumlah besar dapat menunjukkan kegagalan di masa depan.

Ketika kesalahan yang diperbaiki atau dipulihkan terjadi, kernel x86 menulis catatan yang menggambarkan MCE ke buffer cincin internal yang tersedia melalui perangkat / dev / mcelog. mcelog mengambil kesalahan dari / dev / mcelog, menerjemahkannya ke dalam format yang dapat dibaca manusia dan mencetaknya pada output standar atau secara opsional ke dalam log sistem.

Jika Anda tidak melihat adanya kerusakan, mungkin kesalahan berhasil diperbaiki. Meski begitu, saya menyarankan Anda untuk menginstal mceloguntuk melacak acara tersebut:

sudo apt-get install mcelog

Acara akan dicatat /var/log/mcelog. Anda juga dapat menjalankan:

sudo mcelog --client

untuk meminta mcelogdaemon untuk kesalahan.

Eric Carvalho
sumber
2
Saya bertanya-tanya mengapa kesalahan MCE tidak hanya ditulis langsung ke log sistem ... mungkin beberapa alasan bagus, mungkin
Xen2050
2
@ Xen2050 Karena penguraian pesan bergantung pada arsitektur dan tidak selalu didokumentasikan oleh produsen perangkat keras. Kesalahan dapat dihasilkan bahkan oleh bus PCIe.
Mircea Vutcovici
4
@ Xen2050: Di mesin Fedora 25 saya, pesan MCE ditulis ke jurnal, saya bisa melihatnya journalctl -b.
Martin Ueding