“Kesalahan Northbridge (simpul 0): Kesalahan ECC dalam direktori Filter Probe”

8

Saya menerima e-mail dari pengguna yang khawatir bahwa kesalahan berikut pada salah satu servernya menunjukkan masalah serius. Masalahnya adalah, kesalahan di bawah ini adalah semua bahwa saya harus pergi. Saya biasanya menganggap diri saya sebagai Googler yang layak, tetapi dalam kasus ini saya hanya dapat menemukan satu kejadian lain di mana pengguna menemukan kesalahan ini mengenai "Direktori Filter Penyelidikan":

[1044 snapshots @ abc]$
Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: CPU:0 
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]:       MC4_ADDR: 0x0000000000010f40

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the 
Probe Filter directory.

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

Dari apa yang saya tahu, ini hanya terjadi sekali. Menelusuri log untuk kesalahan perangkat keras lainnya ternyata tidak lain adalah insiden yang satu ini.

Posting forum yang saya referensi di atas hanya berakhir dengan pada dasarnya memberitahu pengguna untuk tidak khawatir tentang hal itu jika hanya terjadi sekali dan tidak menyebabkan masalah fatal. Ini adalah saran yang sama yang saya dapatkan dari rekan-rekan saya, yang juga menyebutkan bahwa ada terlalu banyak variabel (yaitu apa yang berjalan pada 02:50 pada 8 September?).

Namun pengguna ini ingin diyakinkan bahwa ada sesuatu yang tidak beres dengan sistem mereka. Apa yang bisa diindikasikan atau dihubungkan dengan kesalahan di atas? Apakah yang dimaksud dengan "direktori Filter Probe?" Tes apa yang dapat saya jalankan untuk membuat pengguna merasa nyaman bahwa ini tidak menandai mesin mereka untuk malapetaka yang akan datang?

Distribusi mesin Linux adalah Red Hat Enterprise Linux Server rilis 6.4 (Santiago).

CptSupermrkt
sumber
Ini menjelaskan apa itu: developer.amd.com/community/blog/ht-assist-what-is-it
derobert
Wah, kamu benar! Saya ctrl + membuka halaman dan menemukan "HT Assist, atau Probe Filter seperti yang kadang-kadang disebut." Akhirnya semacam referensi ke titik kesalahan / awal! Saya punya banyak kegiatan membaca :)
CptSupermrkt
@derobert itu terdengar seperti jawaban, bukan?
Braiam
@Braiam tautan itu hanya menjelaskan apa itu "filter probe" ... tidak menjelaskan mengapa OP akan mendapatkan kesalahan ECC di sana, atau jika itu menunjukkan masalah nyata.
derobert

Jawaban:

1

Saya tidak punya jawaban yang pasti, tetapi beberapa di antaranya sudah biasa. Saya tidak tahu apa itu direktori Probe Filter, tetapi CptSupermrkt menjelaskan hal itu di atas.

Dalam PCI, Northbridge terhubung ke memori dan prosesor. Kesalahan ECC dikaitkan dengan DRAM. Ada bit Kode Pengoreksian Kesalahan yang disimpan bersama setiap kata. Sedang dibaca mereka diperiksa pada menulis mereka diperbarui. Kesalahan ECC dapat diperbaiki atau tidak dapat diperbaiki, yang menunjukkan kemampuan untuk memperbaiki kesalahan menggunakan bit yang ditulis. Tidak terkoreksi tidak menunjukkan ada kesalahan perangkat keras permanen. Ini dapat terjadi ketika DRAM mulai gagal.

Mengingat semua itu, ini tampak seperti kesalahan sementara. Anda mungkin mencoba tes memori lengkap, tetapi itu tidak mungkin menemukan apa pun. Jika DRAM gagal, satu-satunya tindakan korektif Anda adalah menggantinya.

MikeLRoy
sumber