Saya mencoba memahami pesan MCE untuk menemukan modul memori mana yang buruk di server. Pesan ini muncul di /var/log/kern.log
dalam satu server yang membeku dua kali hari ini.
Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error
Saya menduga modul memori buruk. Server adalah 2x Xeon E5-2650 dengan modul memori 8x8Go (8 slot memori untuk setiap cpu)
Berikut adalah populasi modul memori dari lshw
:
*-memory:0
description: System Memory
physical id: 2d
slot: System board or motherboard
*-bank:0
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-197.A
vendor: Kingston
physical id: 0
serial: B83AE5C2
slot: P1_DIMMA1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:1
description: DIMM Synchronous [empty]
product: Dimm1_PartNum
vendor: Dimm1_Manufacturer
physical id: 1
serial: Dimm1_SerNum
slot: P1_DIMMA2
width: 64 bits
*-bank:2
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 2
serial: EC309238
slot: P1_DIMMB1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:3
description: DIMM Synchronous [empty]
product: Dimm4_PartNum
vendor: Dimm4_Manufacturer
physical id: 3
serial: Dimm4_SerNum
slot: P1_DIMMB2
width: 64 bits
*-bank:4
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 4
serial: E9305438
slot: P1_DIMMC1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:5
description: DIMM Synchronous [empty]
product: Dimm7_PartNum
vendor: Dimm7_Manufacturer
physical id: 5
serial: Dimm7_SerNum
slot: P1_DIMMC2
width: 64 bits
*-bank:6
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 6
serial: E7305738
slot: P1_DIMMD1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:7
description: DIMM Synchronous [empty]
product: Dimm10_PartNum
vendor: Dimm10_Manufacturer
physical id: 7
serial: Dimm10_SerNum
slot: P1_DIMMD2
width: 64 bits
*-memory:1
description: System Memory
physical id: 3f
slot: System board or motherboard
*-bank:0
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-197.A
vendor: Kingston
physical id: 0
serial: B63A08C3
slot: P2_DIMME1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:1
description: DIMM Synchronous [empty]
product: Dimm1_PartNum
vendor: Dimm1_Manufacturer
physical id: 1
serial: Dimm1_SerNum
slot: P2_DIMME2
width: 64 bits
*-bank:2
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 2
serial: EA309638
slot: P2_DIMMF1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:3
description: DIMM Synchronous [empty]
product: Dimm4_PartNum
vendor: Dimm4_Manufacturer
physical id: 3
serial: Dimm4_SerNum
slot: P2_DIMMF2
width: 64 bits
*-bank:4
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 4
serial: E7305938
slot: P2_DIMMG1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:5
description: DIMM Synchronous [empty]
product: Dimm7_PartNum
vendor: Dimm7_Manufacturer
physical id: 5
serial: Dimm7_SerNum
slot: P2_DIMMG2
width: 64 bits
*-bank:6
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 6
serial: E7305B38
slot: P2_DIMMH1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:7
description: DIMM Synchronous [empty]
product: Dimm10_PartNum
vendor: Dimm10_Manufacturer
physical id: 7
serial: Dimm10_SerNum
slot: P2_DIMMH2
width: 64 bits
*-memory:2 UNCLAIMED
physical id: 7
*-memory:3 UNCLAIMED
physical id: 9
Seperti yang dapat Anda perhatikan, tidak ada modul memori pada bank # 5 yang. Jadi pertanyaan saya adalah: apakah Anda setuju pesan ini tentang kegagalan memori? Dan jika demikian, bagaimana saya bisa menemukan modul mana yang harus diganti?
Dapat membantu menginstal mcelog dan menjalankannya sebagai daemon, dapat membantu menyediakan laporan yang lebih baik. Mereka masih samar tetapi ada sedikit lebih banyak informasi untuk pergi dengan menemukan DIMM culrpit.
mcelog juga dapat menangani masalah waktu-nyata dengan menonaktifkan halaman dengan kesalahan memori yang berlebihan dan dengan demikian memberi Anda lebih banyak peluang untuk menjaga mesin bekerja lebih lama hingga Anda dapat memulihkannya.
sumber
Beberapa vendor mengatakan bahwa beberapa kesalahan yang dapat diperbaiki selama periode waktu tertentu tidak berbahaya.
Sebagai contoh, Oracle mengatakan ganti DIMM ketika salah satu peristiwa berikut terjadi:
Lebih dari 24 Kesalahan yang Dapat Diperbaiki (CE) berasal dalam 24 jam dari DIMM tunggal dan tidak ada DIMM lain yang menunjukkan CE lebih lanjut.
DIMM gagal pengujian memori pada BIOS karena Kesalahan Memori Tidak Dapat Dikoreksi (UCE).
UCE terjadi dan investigasi menunjukkan bahwa kesalahan berasal dari memori.
Perhatikan 24 kesalahan dalam 24 jam.
https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html
Juga,
Pada poin terakhir, HP mengatakan sesuatu yang mirip bahwa itu mungkin hanya firmware server yang salah mendeteksi kesalahan memori. Mereka mengatakan dalam banyak kasus upgrade firmware memperbaiki peringatan positif palsu. Ini mungkin benar terutama jika Anda mulai menerima MCE dari DIMM yang berbeda.
sumber