Haruskah saya khawatir dengan nilai SMART_ Hardware_ECC

16

Saya mendapat pesan seperti itu di /var/log/messages:


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda:


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

Apakah ini berarti disk gagal dan saya harus menggantinya? Di mana saya bisa membaca tentang interpretasi hasil tes SMART?

linux hardware smart lexsys
sumber

13

Menurut Steve Gibson dari ketenaran Spinrite , nilai-nilai SMART harus diambil dari waktu ke waktu, bukan sebagai bacaan instan. Itu berarti, nilai 47 tidak selalu buruk jika nilai telah 47 selama berbulan-bulan. Namun jika nilainya adalah 42 jam yang lalu, dan naik dengan cepat, maka itu berarti drive mengalami kesulitan mengakses bagian dari data dan mungkin segera tidak dapat membaca sektor ini sama sekali. Bergantung pada nilai data pada drive itu, Anda mungkin ingin menggantinya.

Dave Cheney
sumber

+1 untuk jawaban yang bagus, dan untuk menambahkannya. Jika Anda benar-benar khawatir tentang Lexsys, saya akan membeli salinan spinrite dan menjalankannya. Anda membutuhkan sistem Anda untuk bisa boot dari CD, tetapi OSnya tidak relevan. (Meskipun untuk membuat CD boot Anda akan membutuhkan Windows, atau klon Windows)

Matt

Spinrite hadir dengan image .able bootable (freedos) yang dapat Anda bakar dengan os apa pun saat ini

Dave Cheney

grc.com/sr/spinrite.htm akan menjadi tempat yang lebih baik untuk ditautkan ke

Brad Gilbert

2

Contohnya salah! Lihat jawaban @ CesarB - untuk sebagian besar nilai, peningkatan itu baik! Jadi jika 42 jam yang lalu, dan sekarang 47 - bagus. Tapi tidak sebaliknya.

Volker Siegel

6

Nilai tinggi untuk atribut ini sebenarnya cukup bagus:

Perangkat Keras ECC Dipulihkan Parameter SMART menunjukkan waktu antara kesalahan yang diperbaiki ECC.

https://kb.acronis.com/content/9131

Robert Klemme
sumber

2

Menambahkan apa yang saya yakini sebagai kutipan utama.

Robert Klemme

Ini masuk akal sekarang bahkan jika sumber daya yang terhubung hilang. Terima kasih Robert.

anak ayam

4

Pertama, nilai yang lebih rendah lebih buruk untuk SMART, bukan nilai yang lebih tinggi (perhatikan bagaimana kolom ambang selalu lebih rendah dari nilai saat ini). Jadi, peningkatan nilai bukan alasan untuk khawatir. (Namun, aturan ini tidak berlaku untuk nilai mentah.)

Nilai-nilai SMART cenderung sedikit terombang-ambing (nilai Anda mungkin berada di antara 46 dan 47, misalnya, sehingga bahkan perubahan kecil dapat menyebabkannya beralih ke nilai lain).

Anda smartctl -aOutput menunjukkan bahwa nilai terburuknya adalah 45, jadi berosilasi sedikit di atas normal.

Untuk informasi lebih lanjut, lihat Wikipedia: atribut ATA SMART .

CesarB
sumber

3

Perlu diingat bahwa bahkan studi ekstensif yang dilakukan Google menemukan bahwa sejumlah besar kegagalan drive tidak diprediksi oleh kesalahan SMART. Mungkin apa yang Anda lihat adalah hal yang normal, tetapi karena setiap pabrikan memiliki metrik yang berbeda untuk mengubah nilai mentah menjadi nilai yang dilaporkan, sulit untuk mengatakan dengan pasti apakah drive Anda mengalami banyak kesalahan atau tidak. Namun, angka mentah yang besar menurut saya aneh.

Saya akan merekomendasikan membaca semua drive (dd atau rsync'ing ke drive baru) dan periksa nilai-nilai SMART saat berjalan. Jika Anda melihat nomor mentah itu, atau nilai yang dilaporkan, banyak perubahan, saya akan mulai mencari untuk mengganti drive.

jasonrm
sumber

Hah. Akan sangat keren untuk memiliki ZFS melacak atribut SMART terhadap pola penggunaannya sendiri.

i336_

1

Tidak ada yang salah dengan itu.

Anda selalu bisa berlari

smartctl -t long /dev/yourdrive

Kemudian setelah beberapa jam, tanyakan hasilnya

smartctl -a /dev/yourdrive

hanya untuk memastikan.

cstamas
sumber

1

Perangkat Keras IIRC ECC yang dipulihkan adalah koreksi kesalahan pada pembacaan disk, yang tidak biasa untuk disk, dan mereka menyandikan data dengan mekanisme koreksi kesalahan untuk alasan ini. Beberapa pengontrol juga mendukung informasi yang berlebihan di sektor disk dan menambahkan lapisan lain dari koreksi kesalahan.

Sebagai Dave Cheney menyatakan angka-angka harus dipantau dari waktu ke waktu. Perubahan radikal dalam statistik ini merupakan indikasi drive gagal. Juga, perhatikan daftar cacat yang tumbuh - jika daftar cacat yang tumbuh mulai tumbuh atau statistik SMART mulai berubah secara signifikan maka Anda harus mengganti drive secara profilaksis.

ConcernedOfTunbridgeWells
sumber

1

lol, profilaksis

Dave Cheney

Haruskah saya khawatir dengan nilai SMART_ Hardware_ECC_Recovered tinggi?

Jawaban: