Bagaimana menemukan modul memori yang rusak dari pesan MCE?

11

Saya mencoba memahami pesan MCE untuk menemukan modul memori mana yang buruk di server. Pesan ini muncul di /var/log/kern.logdalam satu server yang membeku dua kali hari ini.

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

Saya menduga modul memori buruk. Server adalah 2x Xeon E5-2650 dengan modul memori 8x8Go (8 slot memori untuk setiap cpu)

Berikut adalah populasi modul memori dari lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

Seperti yang dapat Anda perhatikan, tidak ada modul memori pada bank # 5 yang. Jadi pertanyaan saya adalah: apakah Anda setuju pesan ini tentang kegagalan memori? Dan jika demikian, bagaimana saya bisa menemukan modul mana yang harus diganti?

Matg
sumber

Jawaban:

10

Kesalahan ini berasal dari kelas EDAC - Error Detection And Correction edac_mc perangkat.

Peristiwa yang Anda terima adalah peristiwa CE (Kesalahan yang Dapat Diperbaiki). Ini adalah indikasi bahwa DIMM mulai gagal.

EDAC belum melaporkan informasi spesifik apa pun tentang baris atau saluran memori yang dirujuknya sehingga sulit untuk mengatakan yang mana yang diganti sampai yang gagal.

tetapi lihat: / sys / devices / system / edac / mc / mc * dan ini mungkin memberi tahu Anda sedikit lebih banyak tentang baris / dimm mana yang mungkin salah.

Sebagai contoh

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

lihat bidang ce_count.

di samping catatan:

Sistem masih dapat terus beroperasi, tetapi dengan sedikit keamanan. Pemeliharaan preventif dan penggantian bagian DIMM memori proaktif yang menunjukkan CE dapat mengurangi kemungkinan peristiwa UE (kesalahan yang tidak dapat diperbaiki) dan 'panik' sistem.

info lebih lanjut tentang edac di sini:

https://www.kernel.org/doc/Documentation/edac.txt

kamger
sumber
atau reboot, dan pada layar boot GRUB, pilih memtest dan itu mungkin memberi Anda sedikit lebih banyak informasi.
kamger
Tidak ada lagi pesan MCE pagi ini di sana (tidak memiliki akses fisik ke server), menunggu untuk memeriksa edac, ide bagus!
Matg
1

Dapat membantu menginstal mcelog dan menjalankannya sebagai daemon, dapat membantu menyediakan laporan yang lebih baik. Mereka masih samar tetapi ada sedikit lebih banyak informasi untuk pergi dengan menemukan DIMM culrpit.

mcelog juga dapat menangani masalah waktu-nyata dengan menonaktifkan halaman dengan kesalahan memori yang berlebihan dan dengan demikian memberi Anda lebih banyak peluang untuk menjaga mesin bekerja lebih lama hingga Anda dapat memulihkannya.

Baruch Even
sumber
Terima kasih, inilah yang telah saya lakukan tetapi tidak ada lagi kesalahan sejak posting pertama. Kami memutuskan untuk mengganti semua DIMM.
Matg
Kadang-kadang kesalahan bersifat sementara sementara dan kadang-kadang mereka hanya terikat ke lokasi yang sangat spesifik yang jarang disentuh. Jika kesalahan tidak terulang, saya pribadi tidak akan mengganti dimm dan terus memantau, tetapi penggantian juga berlaku.
Baruch Even
1

Beberapa vendor mengatakan bahwa beberapa kesalahan yang dapat diperbaiki selama periode waktu tertentu tidak berbahaya.

Sebagai contoh, Oracle mengatakan ganti DIMM ketika salah satu peristiwa berikut terjadi:

  • Lebih dari 24 Kesalahan yang Dapat Diperbaiki (CE) berasal dalam 24 jam dari DIMM tunggal dan tidak ada DIMM lain yang menunjukkan CE lebih lanjut.

  • DIMM gagal pengujian memori pada BIOS karena Kesalahan Memori Tidak Dapat Dikoreksi (UCE).

  • UCE terjadi dan investigasi menunjukkan bahwa kesalahan berasal dari memori.

Perhatikan 24 kesalahan dalam 24 jam.

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

Juga,

Jika lebih dari satu DIMM telah mengalami beberapa CE, kemungkinan penyebab CE lainnya harus dikesampingkan oleh spesialis Dukungan Sun yang memenuhi syarat sebelum mengganti DIMM mana pun.

Pada poin terakhir, HP mengatakan sesuatu yang mirip bahwa itu mungkin hanya firmware server yang salah mendeteksi kesalahan memori. Mereka mengatakan dalam banyak kasus upgrade firmware memperbaiki peringatan positif palsu. Ini mungkin benar terutama jika Anda mulai menerima MCE dari DIMM yang berbeda.

Tagar
sumber