Dalam /var/log/kern.log
:
kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Ini edac
log, salah satu memori mengalami ce
kesalahan.
Saya telah membaca edac doc
Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:
Channel 0 Channel 1
===================================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
===================================
===================================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
===================================
dan temukan saluran kesalahan:
$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0
dan itu harus mc0/csrow0/ch2
, seperti dokumen tersebut, DIMM seharusnya DIMM_C0
, dan dapat ditemukan oleh dmidecode
:
Tetapi saya tidak dapat menemukan DIMM ini, jadi saya tidak tahu memori mana yang bermasalah:
$ dmidecode -t memory | grep 'Locator: PROC'
Locator: PROC 1 DIMM 2A
Locator: PROC 1 DIMM 1D
Locator: PROC 1 DIMM 4B
Locator: PROC 1 DIMM 3E
Locator: PROC 1 DIMM 6C
Locator: PROC 1 DIMM 5F
Locator: PROC 2 DIMM 2A
Locator: PROC 2 DIMM 1D
Locator: PROC 2 DIMM 4B
Locator: PROC 2 DIMM 3E
Locator: PROC 2 DIMM 6C
Locator: PROC 2 DIMM 5F
Ada 12 slot, dan 9 slot memiliki memori.
Jadi, bagaimana saya bisa tahu memori mana yang bermasalah?
Suplemen:
System Information
Manufacturer: HP
Product Name: ProLiant DL180 G6
Ubuntu 12.04
, Kernel is3.10.20
Jawaban:
Masalah Anda DIMM kemungkinan -
Locator: PROC 1 DIMM 5F
CPU # 0 Saluran # 2_DIMM # 0 berarti:
Edit:
Saat mengajukan pertanyaan, lebih banyak informasi selalu lebih baik ... Mempunyai produsen dan model server akan menyederhanakan ini:
Berikut diagram memori dari Quickspecs HP ProLiant DL180 G6 :
Saran saya bahwa DIMM di slot CPU # 1 benar ... Tapi ini adalah perangkat keras HP. Anda tidak perlu menebak !!
Anda harus menggunakan agen manajemen HP, karena mereka dapat mengingatkan dan memberikan perincian khusus platform tentang kesehatan dan status perangkat keras ...
sumber
PROC1 DIMM 5F
tidak memiliki memori. Jadi maksud Anda slotnya tidak benar-benar dikonfirmasi? Saya harus menambahkan mirror hp deb dan menginstalhpamscli
untuk mendapatkan DIMM yang benar?hp-health
, danStatus
iniN/A
sama dengan output disisipkan.hplog -v
untuk memeriksa entri dalam log IML HP.