Pertama-tama, saya pikir semua orang tahu bahwa hard drive gagal jauh lebih banyak daripada yang ingin diakui pabrikan . Google melakukan penelitian yang menunjukkan bahwa data mentah tertentu mengaitkan bahwa status SMART dari laporan hard drive dapat memiliki korelasi kuat dengan kegagalan drive di masa depan.
Kami menemukan, misalnya, bahwa setelah kesalahan pemindaian pertama, drive 39 kali lebih besar kemungkinannya gagal dalam 60 hari daripada drive tanpa kesalahan tersebut. Kesalahan pertama dalam realokasi, realokasi offline, dan jumlah percobaan juga sangat berkorelasi dengan probabilitas kegagalan yang lebih tinggi. Meskipun terdapat korelasi yang kuat, kami menemukan bahwa model prediksi kegagalan berdasarkan parameter SMART saja cenderung sangat terbatas dalam akurasi prediksi mereka, mengingat bahwa sebagian besar dari drive kami yang gagal tidak menunjukkan sinyal kesalahan SMART sama sekali.
Seagate sepertinya sedang berusaha mengaburkan informasi ini tentang drive mereka dengan mengklaim bahwa hanya perangkat lunak mereka yang dapat secara akurat menentukan status drive mereka dan omong-omong perangkat lunak mereka tidak akan memberi tahu Anda nilai data mentah untuk atribut SMART. Digital Barat tidak membuat klaim seperti itu untuk pengetahuan saya, tetapi alat pelaporan status mereka tampaknya tidak melaporkan nilai data mentah juga.
Saya telah menggunakan HDtune dan smartctl dari smartmontools untuk mengumpulkan nilai data mentah untuk setiap atribut. Saya telah menemukan bahwa memang ... saya membandingkan apel dengan jeruk ketika datang ke atribut tertentu. Sebagai contoh, saya telah menemukan bahwa sebagian besar drive Seagate akan melaporkan bahwa mereka memiliki jutaan kesalahan baca sementara digital barat 99% dari waktu menunjukkan 0 untuk kesalahan baca. Saya juga menemukan bahwa Seagate akan melaporkan jutaan kesalahan pencarian sementara Western Digital sepertinya selalu melaporkan 0.
T : Bagaimana cara menormalkan data ini? Apakah Seagate menghasilkan jutaan kesalahan sementara digital Barat tidak menghasilkan kesalahan? Artikel Wikipedia tentang status SMART mengatakan bahwa produsen memiliki cara berbeda untuk melaporkan data ini.
Inilah hipotesis saya:
Saya pikir saya menemukan cara untuk menormalkan (apakah itu istilah yang tepat?) Data.
Drive Seagate memiliki atribut tambahan yang tidak dimiliki drive Western Digital (Hardware ECC Recovered). Saat Anda mengurangi jumlah kesalahan Baca dari jumlah yang Dipulihkan ECC, Anda mungkin akan berakhir dengan 0. Ini tampaknya setara dengan Western Digitals yang dilaporkan dengan jumlah "Read Error". Ini berarti bahwa Western Digital hanya melaporkan kesalahan baca yang tidak dapat diperbaiki sementara Seagate menghitung semua kesalahan baca dan memberi tahu Anda berapa banyak kesalahan yang dapat diperbaiki.
Saya memiliki drive Seagate di mana jumlah kesalahan Baca kurang dari jumlah ECC yang Dipulihkan dan saya perhatikan bahwa banyak file saya menjadi rusak. Inilah bagaimana saya datang dengan hipotesis saya. Jutaan kesalahan pencarian yang dihasilkan Seagate masih merupakan misteri bagi saya.
Harap konfirmasi atau koreksi hipotesis saya jika Anda memiliki informasi tambahan.
Ini adalah status cerdas dari drive digital barat saya agar Anda dapat melihat apa yang saya bicarakan:
james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model: WDC WD1001FALS-00E3A0
Serial Number: WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity: 1,000,204,886,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 179 175 021 Pre-fail Always - 4033
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 270
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1468
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 262
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 46
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 223
194 Temperature_Celsius 0x0022 105 102 000 Old_age Always - 42
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
Sunting: Ini adalah drive Seagate yang saya bicarakan yang menyebabkan kerusakan data. Data ini dari HDTune.
HD Tune: ST3250623A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 45 38 6 77882492 Ok
(03) Spin Up Time 99 98 0 0 Ok
(04) Start/Stop Count 100 100 20 640 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 85 60 30 359872048 Ok
(09) Power On Hours Count 94 94 0 6028 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 100 100 20 689 Ok
(C2) Temperature 25 55 0 25 Ok
(C3) Hardware ECC Recovered 50 47 0 201555081 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 199 0 1 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6028
Health Status : Ok
Fakta bahwa Hardware ECC Recovered lebih besar dari Raw Read Error Rate bertentangan dengan pendapat saya.
Inilah yang saya temukan sebagai drive seagate "normal" di mana ECC Recovered cocok dengan Raw Error Error Rate:
HD Tune: ST380011A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 62 46 6 79986164 Ok
(03) Spin Up Time 98 98 0 0 Ok
(04) Start/Stop Count 100 100 20 6 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 83 60 30 210309663 Ok
(09) Power On Hours Count 93 93 0 6516 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 99 99 20 1325 Ok
(C2) Temperature 25 52 0 25 Ok
(C3) Hardware ECC Recovered 62 46 0 79986164 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 188 0 18 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6516
Health Status : Ok
EDIT:
Saya ingin mengklarifikasi bahwa saya tahu bahwa Google pada umumnya menganggap SMART tidak berguna. Saya tahu bahwa setiap orang harus membuat cadangan data mereka. Namun saya dalam bisnis memperbaiki komputer orang lain. Kebanyakan orang tidak memiliki cadangan atau memiliki RAID. Bukan biaya yang efektif bagi perusahaan untuk memecahkan masalah hard drive, jadi mereka hanya menjalankannya pada RAID sampai mati. Saya merasa berguna dalam pekerjaan saya untuk memeriksa status SMART dari hard drive. Dibutuhkan sekitar 30 detik. Jika saya cukup beruntung untuk drive yang buruk untuk menunjukkan sedikit kegagalan seperti kesalahan pemindaian atau realokasi sektor, saya tahu untuk mendapatkan drive keluar dari sana. Jika tidak ada petunjuk seperti itu, saya mungkin akan menghabiskan berjam-jam mengatasi masalah keterlambatan dan korupsi data sampai akhirnya saya menemukan bahwa hard drive buruk.
Saya hanya mencoba untuk menyempurnakan proses ini.
sumber
Jawaban:
Tampaknya beberapa pabrikan menggunakan nilai-nilai SMART untuk hal-hal yang terkadang sangat berbeda, seperti yang Anda lihat di sini :
Jadi ketika sampai pada pertanyaan Anda yang sebenarnya ...
Saya akan mengatakan aturan praktis yang baik adalah, Anda hanya bisa mengharapkan pengaturan SMART dapat dibandingkan dalam produsen drive yang sama, dan mungkin bahkan model drive yang sama!
Jadi ketika Anda melihat diagnosis jumlah SMART tersebut, ingatlah ... "hitungan retry read error" satu pabrikan dapat berarti sesuatu yang sama sekali berbeda dari pabrikan lain. Sedih tapi benar. :(
sumber
Oke, pertama-tama saya tidak setuju dengan premis Anda.
Bahkan mereka menemukan yang sebaliknya:
Kedua, ambang batas SMART tidak distandarisasi. Firmware pada drive itu sendiri akan menandai atribut sebagai "pra-kegagalan", tetapi nilai mentahnya tidak berarti bagi pengguna. Misalnya, Seagate mengatakan :
tl; dr Ringkasan:
Nilai-nilai SMART baku hampir tidak ada artinya, karena pabrikan yang berbeda menggunakannya dengan cara yang berbeda dan memiliki ambang batas yang berbeda dll. Firmware drive itu sendiri akan memberi tahu Anda ketika sedang dalam "pra-kegagalan" ... atau mungkin tidak, SMART sebenarnya tidak sangat bisa diandalkan.
Lakukan pencadangan rutin!
sumber
Saya tidak yakin apa pertanyaannya yang Anda tanyakan. Anda tampaknya memiliki seluruh pertanyaan dan jawaban yang digulung menjadi satu tetapi ...
Sudahkah Anda membandingkan metrik hard drive dengan yang diberikan dari SeaTools
Ini adalah alat diagnostik perangkat keras standar Seagate dan AFAIK alat diagnostik HDD yang paling umum digunakan.
Jangan heran jika Anda menemukan bahwa alat melaporkan hasil yang tidak menguntungkan tentang pesaing mereka. Alat umumnya bekerja dengan HDD dari semua produsen tetapi itu tidak berarti bahwa mereka telah membuat pesaing mereka terlihat baik saat melakukannya.
Pernahkah Anda mendengar lelucon itu, "99,99% dari semua statistik adalah benar kecuali, tentu saja, statistik ini".
sumber
Dalam realitas fisik internal hard drive, semua merek hard drive yang lebih besar dari 100MB akan memiliki banyak kesalahan pembacaan fisik. Sebagian besar dari mereka dikoreksi dengan aman oleh ECC, beberapa (mudah-mudahan sangat sedikit) dikoreksi secara salah oleh ECC dan sisanya (beberapa tetapi lebih dari koreksi yang salah) dilaporkan kembali ke komputer sebagai gagal dibaca dan juga harus membuat drive secara otomatis memindahkan lokasi. bad sector.
Selain mengoreksi kesalahan baca mentah, ECC juga mengoreksi pembacaan bahwa perangkat kerasnya dianggap OK, tetapi bit yang dikembalikan sedikit salah. Dengan demikian, ECC yang diperbaiki mungkin "bacaan mentah gagal tetapi diperbaiki oleh ECC + bacaan mentah berhasil tetapi salah dan diperbaiki oleh ECC".
Dengan demikian, dua interpretasi data tampak mungkin:
A. drive non-Seagate tidak termasuk kesalahan baca yang dikoreksi ECC dalam "hitungan kesalahan baca mentah", hanya kesalahan yang tidak dapat diperbaiki.
B. Seagate menganggapnya sebagai kesalahan baca jika ECC menemukan sesuatu yang salah dengan data bahkan jika sirkuit tingkat rendah tidak menyadarinya, yang lain tidak.
Normalisasi akan sangat berbeda tergantung pada teori mana (A atau B) yang benar.
sumber