Seberapa serius saya harus menerima peringatan kesalahan yang dapat diperbaiki ECC?

8

Saya memiliki tumpukan server Sun X2200-M2. Server-server ini memiliki memori ECC.

Di beberapa server ini, saya mendapat peringatan di eLOM tentang "kesalahan ECC yang dapat diperbaiki terdeteksi", misalnya:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... beberapa lebih sering daripada yang lain.

Kernel pada sistem khusus ini juga melempar kesalahan EDAC, meskipun dengan frekuensi yang jauh lebih banyak daripada eLOM merekam kejadian ECC:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Sekarang jika server mendeteksi ECC yang Tidak Dapat Dioreksi, sistem me-reset, jadi jelas itu buruk dan menghapus / mengganti tongkat yang diidentifikasi atau pasangan memperbaiki masalah.

Tetapi saya berpikir bahwa jika kesalahan dapat diperbaiki, maka tidak ada masalah langsung - saya dapat memperlakukan ini sebagai peringatan dan bersiap untuk menarik tongkat / pasangan jika kesalahan yang tidak dapat diperbaiki mulai terjadi?

David Mackintosh
sumber

Jawaban:

10

Tergantung seberapa sering Anda mendapatkan kesalahan. Karena berbagai alasan, ECC harus memperbaiki kesalahan bit tunggal rata-rata setahun sekali. Jika Anda mendapatkannya secara signifikan lebih cepat dari itu, atau jika mereka kesalahan multi-bit, Anda harus khawatir (saya akan mengganti RAM ASAP).

Juga, ECC tidak sempurna. Mungkin saja kesalahan kumulatif melewati ECC; yang akan muncul sebagai OS crash atau masalah serupa.

Chris S
sumber
Terima kasih. Bernegosiasi dengan pelanggan untuk mendanai penggantian.
David Mackintosh