Bagaimana saya bisa menemukan memori mana yang memiliki kesalahan CE?

12

Dalam /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

Ini edaclog, salah satu memori mengalami cekesalahan.

Saya telah membaca edac doc

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

dan temukan saluran kesalahan:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

dan itu harus mc0/csrow0/ch2, seperti dokumen tersebut, DIMM seharusnya DIMM_C0, dan dapat ditemukan oleh dmidecode:

Tetapi saya tidak dapat menemukan DIMM ini, jadi saya tidak tahu memori mana yang bermasalah:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

Ada 12 slot, dan 9 slot memiliki memori.

Jadi, bagaimana saya bisa tahu memori mana yang bermasalah?


Suplemen:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6
Tanky Woo
sumber
Jenis server apa ini? Produsen dan Model Server.
ewwhite
@ewwhite, hai, saya memperbarui pertanyaan dengan info sistem.
Tanky Woo
Sistem operasi apa yang Anda jalankan?
ewwhite
@ewwhite OS Ubuntu 12.04, Kernel is3.10.20
Tanky Woo
Oh, maafkan saya ... Ubuntu tidak benar-benar didukung pada perangkat keras ini , jadi Anda kehilangan kemampuan untuk memantau dengan benar dengan tidak menggunakan RHEL / CentOS / Debian / SuSE ...
ewwhite

Jawaban:

8

Masalah Anda DIMM kemungkinan - Locator: PROC 1 DIMM 5F

CPU # 0 Saluran # 2_DIMM # ​​0 berarti:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

Edit:

Saat mengajukan pertanyaan, lebih banyak informasi selalu lebih baik ... Mempunyai produsen dan model server akan menyederhanakan ini:

Berikut diagram memori dari Quickspecs HP ProLiant DL180 G6 :

masukkan deskripsi gambar di sini

Saran saya bahwa DIMM di slot CPU # 1 benar ... Tapi ini adalah perangkat keras HP. Anda tidak perlu menebak !!

Anda harus menggunakan agen manajemen HP, karena mereka dapat mengingatkan dan memberikan perincian khusus platform tentang kesehatan dan status perangkat keras ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A
putih
sumber
terima kasih, apakah ada dokumen yang dirilis?
Tanky Woo
@TankyWoo Ya, lihat di atas.
ewwhite
PROC1 DIMM 5Ftidak memiliki memori. Jadi maksud Anda slotnya tidak benar-benar dikonfirmasi? Saya harus menambahkan mirror hp deb dan menginstal hpamscliuntuk mendapatkan DIMM yang benar?
Tanky Woo
Saya telah menginstal hp-health, dan Statusini N/Asama dengan output disisipkan.
Tanky Woo
Jalankan hplog -vuntuk memeriksa entri dalam log IML HP.
ewwhite