Kesalahan Perangkat Keras Generik APEI

9

Selama seminggu terakhir server saya (menjalankan Debian Jessie) telah reboot dua kali. Di syslog saya melihat ini sebelum setiap reboot, dan tidak ada poin lain:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Beberapa googling membuat saya percaya bahwa ini ada hubungannya dengan RAM ECC saya yang mendeteksi dan memulihkan dari kesalahan. Apakah ini benar? Jika sudah pulih, mengapa sistem reboot? Saya ingin mencegah sistem me-reboot, jika memungkinkan.

moujik
sumber

Jawaban:

9

Sepertinya RAM Anda gagal, atau mengalami kesalahan yang sedang diperbaiki. Bergantung pada tingkat keparahannya, sepertinya kesalahan ini berdampak pada kemampuannya untuk berfungsi dan harus reboot setelahnya.

Dari tampilan utas ini, sedikit pesan di bagian akhir tentang panjang bagian kesalahan yang terlalu kecil kemungkinan menjadi penyebabnya.

kutipan - [PATCH 1/1] efi: cper: Mendukung panjang Bagian Kesalahan yang berbeda

Beberapa bidang mungkin ditambahkan ke Bagian Kesalahan dalam spesifikasi UEFI yang lebih baru. Misalnya, bidang 'Dicadangkan', 'Nomor Peringkat', 'Pegangan Kartu' dan 'Pegangan Modul' ditambahkan ke Bagian Kesalahan Memori dimulai dari UEFI spec 2.3. Sayangnya, akan ada pesan peringatan berikut jika kesalahan dikoreksi memori terdeteksi dan bidang 'revisi' dalam struct acpi_generic_data kurang dari 0x203 (UEFI spec 2.3):

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Perilaku ini menyebabkan kesalahan yang diperbaiki ini tidak dapat ditampilkan dengan benar. Untuk mengatasi masalah ini, tambalan ini mendukung panjang Bagian Kesalahan yang berbeda untuk versi spesifikasi UEFI yang berbeda.

Dan, tambalan ini menggunakan struktur yang telah ditentukan untuk membersihkan kode duplikat dalam fungsi cper_estatus_print_section.

Dengan menerapkan tambalan ini, kesalahan yang diperbaiki memori dapat ditampilkan dengan benar setelah menyuntikkan kesalahan.

Diuji pada v3.14-rc5 dengan platform Grantley dan Intel RAStool.

Jadi sepertinya ada patch untuk kesalahan tertentu yang sedang dikerjakan dan mungkin tersedia di versi kernel yang lebih baru.

slm
sumber
3

FYI saya tampaknya memiliki masalah yang sangat mirip dengan ini.

Ternyata solusinya adalah mengeluarkan memori, dan mengulanginya, dan semuanya kembali normal.

Darren Harrison
sumber