Mengapa produsen yang berbeda memiliki nilai SMART yang berbeda?

23

Pertama-tama, saya pikir semua orang tahu bahwa hard drive gagal jauh lebih banyak daripada yang ingin diakui pabrikan . Google melakukan penelitian yang menunjukkan bahwa data mentah tertentu mengaitkan bahwa status SMART dari laporan hard drive dapat memiliki korelasi kuat dengan kegagalan drive di masa depan.

Kami menemukan, misalnya, bahwa setelah kesalahan pemindaian pertama, drive 39 kali lebih besar kemungkinannya gagal dalam 60 hari daripada drive tanpa kesalahan tersebut. Kesalahan pertama dalam realokasi, realokasi offline, dan jumlah percobaan juga sangat berkorelasi dengan probabilitas kegagalan yang lebih tinggi. Meskipun terdapat korelasi yang kuat, kami menemukan bahwa model prediksi kegagalan berdasarkan parameter SMART saja cenderung sangat terbatas dalam akurasi prediksi mereka, mengingat bahwa sebagian besar dari drive kami yang gagal tidak menunjukkan sinyal kesalahan SMART sama sekali.

Seagate sepertinya sedang berusaha mengaburkan informasi ini tentang drive mereka dengan mengklaim bahwa hanya perangkat lunak mereka yang dapat secara akurat menentukan status drive mereka dan omong-omong perangkat lunak mereka tidak akan memberi tahu Anda nilai data mentah untuk atribut SMART. Digital Barat tidak membuat klaim seperti itu untuk pengetahuan saya, tetapi alat pelaporan status mereka tampaknya tidak melaporkan nilai data mentah juga.

Saya telah menggunakan HDtune dan smartctl dari smartmontools untuk mengumpulkan nilai data mentah untuk setiap atribut. Saya telah menemukan bahwa memang ... saya membandingkan apel dengan jeruk ketika datang ke atribut tertentu. Sebagai contoh, saya telah menemukan bahwa sebagian besar drive Seagate akan melaporkan bahwa mereka memiliki jutaan kesalahan baca sementara digital barat 99% dari waktu menunjukkan 0 untuk kesalahan baca. Saya juga menemukan bahwa Seagate akan melaporkan jutaan kesalahan pencarian sementara Western Digital sepertinya selalu melaporkan 0.

T : Bagaimana cara menormalkan data ini? Apakah Seagate menghasilkan jutaan kesalahan sementara digital Barat tidak menghasilkan kesalahan? Artikel Wikipedia tentang status SMART mengatakan bahwa produsen memiliki cara berbeda untuk melaporkan data ini.

Inilah hipotesis saya:

Saya pikir saya menemukan cara untuk menormalkan (apakah itu istilah yang tepat?) Data.

Drive Seagate memiliki atribut tambahan yang tidak dimiliki drive Western Digital (Hardware ECC Recovered). Saat Anda mengurangi jumlah kesalahan Baca dari jumlah yang Dipulihkan ECC, Anda mungkin akan berakhir dengan 0. Ini tampaknya setara dengan Western Digitals yang dilaporkan dengan jumlah "Read Error". Ini berarti bahwa Western Digital hanya melaporkan kesalahan baca yang tidak dapat diperbaiki sementara Seagate menghitung semua kesalahan baca dan memberi tahu Anda berapa banyak kesalahan yang dapat diperbaiki.

Saya memiliki drive Seagate di mana jumlah kesalahan Baca kurang dari jumlah ECC yang Dipulihkan dan saya perhatikan bahwa banyak file saya menjadi rusak. Inilah bagaimana saya datang dengan hipotesis saya. Jutaan kesalahan pencarian yang dihasilkan Seagate masih merupakan misteri bagi saya.

Harap konfirmasi atau koreksi hipotesis saya jika Anda memiliki informasi tambahan.

Ini adalah status cerdas dari drive digital barat saya agar Anda dapat melihat apa yang saya bicarakan:

james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Sunting: Ini adalah drive Seagate yang saya bicarakan yang menyebabkan kerusakan data. Data ini dari HDTune.

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

Fakta bahwa Hardware ECC Recovered lebih besar dari Raw Read Error Rate bertentangan dengan pendapat saya.

Inilah yang saya temukan sebagai drive seagate "normal" di mana ECC Recovered cocok dengan Raw Error Error Rate:

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

EDIT:

Saya ingin mengklarifikasi bahwa saya tahu bahwa Google pada umumnya menganggap SMART tidak berguna. Saya tahu bahwa setiap orang harus membuat cadangan data mereka. Namun saya dalam bisnis memperbaiki komputer orang lain. Kebanyakan orang tidak memiliki cadangan atau memiliki RAID. Bukan biaya yang efektif bagi perusahaan untuk memecahkan masalah hard drive, jadi mereka hanya menjalankannya pada RAID sampai mati. Saya merasa berguna dalam pekerjaan saya untuk memeriksa status SMART dari hard drive. Dibutuhkan sekitar 30 detik. Jika saya cukup beruntung untuk drive yang buruk untuk menunjukkan sedikit kegagalan seperti kesalahan pemindaian atau realokasi sektor, saya tahu untuk mendapatkan drive keluar dari sana. Jika tidak ada petunjuk seperti itu, saya mungkin akan menghabiskan berjam-jam mengatasi masalah keterlambatan dan korupsi data sampai akhirnya saya menemukan bahwa hard drive buruk.

Saya hanya mencoba untuk menyempurnakan proses ini.

James T
sumber
Ada informasi berbasis pintar di menu administrasi di bawah (saya percaya) manajemen disk. Mungkin memiliki kemampuan tambahan di atas smartctl, tapi saya belum menggunakannya dalam beberapa saat dan tidak memilikinya di depan saya.
Jarvin
@ Dan Hai, Dan, saya tidak yakin alat windows apa yang Anda bicarakan. Bisakah Anda mengklarifikasi?
James T
Masalah dengan SMART adalah sedikit keliru; tidak ada kecerdasan aktual di dalamnya, hanya beberapa persamaan (mungkin bahkan tidak heuristik). Yang bisa dilakukan hanyalah memantau sendiri dan melaporkan jumlahnya, itu saja. Sebagai contoh, saya memiliki drive yang memiliki kabel listrik yang tidak terhubung dengan baik, yang menyebabkannya mati dan nyala beberapa kali dengan cepat (membuat suara “klik-mati”). Saya memasang kembali konektornya, sehingga sekarang berfungsi dengan baik, tetapi karena kegagalan sementara (yang dapat diperbaiki) pada suatu waktu, sekarang telah secara permanen mencatat acara RRER di SMART, membuatnya tampak gagal.
Synetech

Jawaban:

14

Tampaknya beberapa pabrikan menggunakan nilai-nilai SMART untuk hal-hal yang terkadang sangat berbeda, seperti yang Anda lihat di sini :

Hard disk saya di ReadyNAS melaporkan Tingkat Kesalahan Baca Raw Raw yang tinggi, Tingkat Kesalahan Pencarian, dan ECC Perangkat Keras yang Dipulihkan. Apa yang harus saya lakukan?

Seagate menggunakan bidang-bidang SMART ini untuk jumlah internal, jadi ini adalah masalah yang diketahui dengan disk Seagate. Cari jumlah abnormal di bidang lain, terutama Realokasi Sektor Ct dan ATA Error Count.

Jadi ketika sampai pada pertanyaan Anda yang sebenarnya ...

Jika saya cukup beruntung untuk drive yang buruk untuk menunjukkan sedikit kegagalan seperti kesalahan pemindaian atau realokasi sektor, saya tahu untuk mendapatkan drive keluar dari sana. Jika tidak ada petunjuk seperti itu, saya mungkin akan menghabiskan berjam-jam mengatasi masalah keterlambatan dan korupsi data sampai akhirnya saya menemukan bahwa hard drive buruk.

Saya akan mengatakan aturan praktis yang baik adalah, Anda hanya bisa mengharapkan pengaturan SMART dapat dibandingkan dalam produsen drive yang sama, dan mungkin bahkan model drive yang sama!

Jadi ketika Anda melihat diagnosis jumlah SMART tersebut, ingatlah ... "hitungan retry read error" satu pabrikan dapat berarti sesuatu yang sama sekali berbeda dari pabrikan lain. Sedih tapi benar. :(

Jeff Atwood
sumber
14

Oke, pertama-tama saya tidak setuju dengan premis Anda.

Google melakukan penelitian yang menunjukkan bahwa data mentah tertentu mengaitkan bahwa status SMART dari laporan hard drive dapat memiliki korelasi kuat dengan kegagalan drive di masa depan.

Bahkan mereka menemukan yang sebaliknya:

... kami menemukan bahwa model prediksi kegagalan berdasarkan parameter SMART saja cenderung sangat terbatas dalam akurasi prediksi mereka, mengingat sebagian besar dari drive kami yang gagal tidak menunjukkan sinyal kesalahan SMART sama sekali.

Kedua, ambang batas SMART tidak distandarisasi. Firmware pada drive itu sendiri akan menandai atribut sebagai "pra-kegagalan", tetapi nilai mentahnya tidak berarti bagi pengguna. Misalnya, Seagate mengatakan :

Berbagai atribut sedang dipantau dan diukur terhadap batas ambang tertentu. Jika salah satu atribut melebihi ambang batas maka tes Status SMART umum akan berubah dari Lulus ke Gagal.

Nilai-nilai SMART yang mungkin dibaca oleh perangkat lunak SMART pihak ketiga tidak didasarkan pada bagaimana nilai-nilai tersebut dapat digunakan dalam hard drive Seagate. Seagate tidak memberikan dukungan untuk program perangkat lunak yang mengklaim membaca atribut dan ambang batas SMART individu. Mungkin ada beberapa kebenaran historis pada drive yang lebih lama, tetapi drive baru, tidak diragukan lagi, akan menggabungkan solusi, atribut, dan ambang batas yang lebih baru.

tl; dr Ringkasan:

Nilai-nilai SMART baku hampir tidak ada artinya, karena pabrikan yang berbeda menggunakannya dengan cara yang berbeda dan memiliki ambang batas yang berbeda dll. Firmware drive itu sendiri akan memberi tahu Anda ketika sedang dalam "pra-kegagalan" ... atau mungkin tidak, SMART sebenarnya tidak sangat bisa diandalkan.

Lakukan pencadangan rutin!

sml
sumber
Berdasarkan komentar Anda, sepertinya Anda tidak membaca seluruh posting saya. Inilah sebabnya saya memasukkan semua informasi latar belakang dan kutipan. Anda mengutip Google tetapi hanya bagian yang sangat dipilih. Jika Anda membaca bagian sesaat sebelum kutipan Anda ... itu mengatakan bahwa beberapa atribut memiliki korelasi kegagalan yang kuat .... seperti jumlah sektor yang dialokasikan kembali. Pabrikan tidak melaporkan drive mereka berada dalam kondisi pra-kegagalan setelah satu sektor dialokasikan kembali. Ini jelas menunjukkan bahwa Anda bisa mendapatkan indikasi yang lebih baik tentang kesehatan drive dengan melihat data mentah.
James T
Saya juga ingin menambahkan bahwa drive seagate saya merusak data saya dan nilai-nilai data mentah sangat berbeda dari apa yang saya pelajari sebagai drive yang sehat. Jelas ada yang salah dengan di mana pabrikan menetapkan ambang.
James T
Saya pikir Anda perlu membaca kembali postingan dan tautan saya. Nilai SMART mentah bukanlah indikator yang dapat diandalkan untuk apa pun . Laporan Google tidak mengatakan bahwa "beberapa atribut memiliki korelasi kegagalan yang kuat". Apa yang dilakukannya mengatakan adalah bahwa meskipun fakta bahwa "setelah fi mereka rst memindai kesalahan, drive 39 kali lebih mungkin untuk gagal dalam waktu 60 hari dari drive dengan tidak ada kesalahan seperti", kurang dari 15% dari populasi drive gagal memiliki setiap Kesalahan Scan. Apakah ini merupakan indikator yang andal jika tepat 15% dari waktu?
sml
1
@ skottl Saya tidak yakin dari mana Anda mendapat 15% dari. Saya tidak melihatnya di artikel itu. Bahkan jika hanya 15% dari drive mereka memiliki kesalahan pemindaian ... mereka menemukan bahwa drive dengan kesalahan pemindaian 39 kali lebih besar kemungkinannya gagal dalam 60 hari. Ini tidak berarti bahwa drive Anda tidak akan gagal kecuali Anda memiliki kesalahan pemindaian. Ini hanya berarti bahwa jika Anda memiliki kesalahan pemindaian ... sisa masa pakai hard drive Anda mungkin pendek. Apakah Anda pernah mengambil statistik? Saya menemukannya sangat berguna.
James T
1
Smartmontools FAQ mengatakan: Atribut SMART baku (suhu, masa pakai daya, dan sebagainya) disimpan dalam struktur khusus vendor. Terkadang ini aneh. Disk Hitachi (setidaknya beberapa di antaranya) menyimpan daya hidup seumur hidup dalam hitungan menit, bukan berjam-jam (lihat pertanyaan berikutnya di bawah). Disk IBM (setidaknya beberapa dari mereka) memiliki tiga suhu yang disimpan dalam struktur mentah, bukan hanya satu. Dan seterusnya.
sml
4

Saya tidak yakin apa pertanyaannya yang Anda tanyakan. Anda tampaknya memiliki seluruh pertanyaan dan jawaban yang digulung menjadi satu tetapi ...

Sudahkah Anda membandingkan metrik hard drive dengan yang diberikan dari SeaTools

Ini adalah alat diagnostik perangkat keras standar Seagate dan AFAIK alat diagnostik HDD yang paling umum digunakan.

Jangan heran jika Anda menemukan bahwa alat melaporkan hasil yang tidak menguntungkan tentang pesaing mereka. Alat umumnya bekerja dengan HDD dari semua produsen tetapi itu tidak berarti bahwa mereka telah membuat pesaing mereka terlihat baik saat melakukannya.

Pernahkah Anda mendengar lelucon itu, "99,99% dari semua statistik adalah benar kecuali, tentu saja, statistik ini".

Evan Plaice
sumber
1
Ya ... ini agak membingungkan. Saya pada dasarnya memasukkan semua informasi latar belakang yang saya kenal sebelum pertanyaan dan semua tes dan dugaan setelah pertanyaan. Inilah pertanyaan saya "Bagaimana cara menormalkan data ini?". Pada dasarnya .. bagaimana cara membuat semua atribut data dari satu produsen berarti hal yang sama dengan atribut data dari produsen lain sehingga saya dapat membandingkannya secara akurat.
James T
@James Anda dapat mencoba mengumpulkan data dari sebanyak mungkin perbedaan dan mencari tahu bagaimana masing-masing jika menginterpretasikan data berbeda satu sama lain. Mereka semua mungkin melaporkan data yang benar, mereka mungkin menafsirkannya dengan cara yang berbeda seperti yang Anda tunjukkan. Itu sebabnya saya menambahkan kutipan statistik ... Hanya karena datanya bagus, bukan berarti interpretasinya.
Evan Plaice
2
Yup, itulah yang telah saya lakukan. Saya telah memeriksa lebih dari 70 hard drive yang berbeda dan perbedaan besar dalam mencari kesalahan dan membaca kesalahan adalah atribut yang melekat pada saya. Saya punya dugaan bahwa untuk seagate drive, kesalahan baca memiliki semacam hubungan dengan hardware ecc pulih. Saya tidak yakin apa hubungan itu. Saya berharap seseorang di sini bisa memberi tahu saya. Saya juga berharap seseorang bisa memberi tahu saya mengapa seagate drive memiliki jumlah kesalahan pencarian yang besar sementara digital barat sepertinya selalu nol.
James T
@ James Mungkin seseorang akan datang dengan jawaban yang lebih baik ... Tebakan jujur ​​saya adalah, Western Digital mungkin tidak mengikuti spesifikasi SMART yang sebenarnya. Itulah masalah dengan standar perangkat keras, mereka adalah nilai jual yang hebat tetapi selalu ada beberapa produsen yang akan memasarkan semua manfaat tanpa mengikuti spesifikasi lengkap.
Evan Plaice
Ya penyimpangan dari standar adalah apa yang saya pikir dan apa yang artikel wikipedia sarankan. Saya ingin tahu perbedaannya sehingga saya dapat membandingkan kedua pabrikan dengan benar (dan mungkin juga yang lain). Terima kasih atas komentar Evan. Semoga ini menjelaskan pertanyaan untuk orang lain juga.
James T
2

Dalam realitas fisik internal hard drive, semua merek hard drive yang lebih besar dari 100MB akan memiliki banyak kesalahan pembacaan fisik. Sebagian besar dari mereka dikoreksi dengan aman oleh ECC, beberapa (mudah-mudahan sangat sedikit) dikoreksi secara salah oleh ECC dan sisanya (beberapa tetapi lebih dari koreksi yang salah) dilaporkan kembali ke komputer sebagai gagal dibaca dan juga harus membuat drive secara otomatis memindahkan lokasi. bad sector.

Selain mengoreksi kesalahan baca mentah, ECC juga mengoreksi pembacaan bahwa perangkat kerasnya dianggap OK, tetapi bit yang dikembalikan sedikit salah. Dengan demikian, ECC yang diperbaiki mungkin "bacaan mentah gagal tetapi diperbaiki oleh ECC + bacaan mentah berhasil tetapi salah dan diperbaiki oleh ECC".

Dengan demikian, dua interpretasi data tampak mungkin:

A. drive non-Seagate tidak termasuk kesalahan baca yang dikoreksi ECC dalam "hitungan kesalahan baca mentah", hanya kesalahan yang tidak dapat diperbaiki.

B. Seagate menganggapnya sebagai kesalahan baca jika ECC menemukan sesuatu yang salah dengan data bahkan jika sirkuit tingkat rendah tidak menyadarinya, yang lain tidak.

Normalisasi akan sangat berbeda tergantung pada teori mana (A atau B) yang benar.

Jakob Bohm
sumber
> juga harus membuat drive secara otomatis merelokasi sektor buruk. Lalu apa hubungan antara Count Peristiwa Sektor yang Tidak Dapat Dipulihkan, dan Jumlah Sektor yang Tertunda ? Bukankah itu meningkatkan arus , kemudian dipindahkan atau tidak diperbaiki ? Mengapa itu tidak bisa diperbaiki? Jika mencoba memetakan kembali sektor yang buruk dan gagal (yaitu, sektor cadangan buruk), maka bukankah seharusnya ia mencoba memetakan kembali ke sektor cadangan yang berbeda? itu bukan ban yang hanya memiliki satu cadangan.
Synetech
100 MB? Apakah maksud Anda 100 GB?
Peter Mortensen