Apakah Hard Drive saya Gagal?

42

Saya hanya mencoba menjalankan tes pada hdd saya dan tidak ingin menyelesaikan tes mandiri. Inilah hasilnya:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

Jadi apakah disk ini gagal?

Michel
sumber
Ketika saya menggunakan alat grafis itu dikatakan swa-uji-gagal
Michel
3
read failurePesan yang diulang biasanya menunjukkan disk yang gagal, jadi ya ...
HBruijn
23
Michel, selamat datang di SF, dan terima kasih untuk pertanyaan pertama yang bagus. Seperti yang mungkin Anda lihat jika Anda memutuskan untuk tetap di bagian ini (yang saya harap Anda akan), pertanyaan pertama yang baik adalah hal yang langka dan berharga. Anda memiliki hipotesis yang sesuai dengan situs ( "HDD saya gagal "), Anda menemukan alat yang relevan dan belajar cara menggunakannya, tetapi membutuhkan bantuan dalam menginterpretasikan hasilnya. Jadi Anda datang ke sini, memberi kami semua informasi yang relevan, tidak ada sampah surplus, dan mengajukan pertanyaan yang merupakan model keputusan. Terima kasih - tolong tetap di sini!
MadHatter mendukung Monica
3
+1: Pertanyaan pertama yang bagus. Untuk memanfaatkan Server Fault sebaik-baiknya, silakan daftarkan akun Anda, dan periksa beberapa situs lain di jaringan Stack Exchange . Kami berharap dapat melihat Anda berkontribusi lebih banyak konten berkualitas tinggi ke Stack Exchange.
bwDraco

Jawaban:

43

Drive Anda sangat senang melakukan swa-uji; dari ringkasan, itu telah dilakukan lebih dari lima dari mereka dalam satu jam terakhir. Dan semuanya gagal, sejak awal tes, dengan kesalahan baca.

Ya, hard drive ini gagal. Seperti yang dikatakan oleh laporan Google Labs yang terkenal (walaupun saya tidak dapat menempatkan tautan saya pada tautan itu saat ini), jika smartctldikatakan drive Anda gagal, mungkin itu (saya parafrase).

Sunting : jangan mencoba untuk menyimpannya. Dapatkan semua data dari itu, dan ganti.

MadHatter mendukung Monica
sumber
9
Jika gagal, gagal. Perbaikan mungkin secara teknis mungkin, tetapi sangat tidak mungkin efektif biaya dibandingkan dengan biaya drive baru.
Sobrique
7
@Michel Tidak adanya kesalahan self-test tidak bukti bahwa drive tidak gagal, sedih, tetapi kehadiran kesalahan uji diri harus selalu bukti menganggap bahwa yang gagal.
Rob Moir
1
@Michel: Anda bisa mencoba mengganti kabel. Terkadang drive dapat gagal bukan karena masalah dalam drive, tetapi karena daya yang buruk atau kabel data.
Thomas Padron-McCarthy
1
@ JorgeNerín: Saya pikir Anda membuat poin yang sangat baik, tetapi buktinya bahwa saya dan OP sudah memahaminya - OP harus, karena (s) ia telah memprakarsai setidaknya lima dari mereka dalam dua jam terakhir. Adapun tes, saya setuju dengan Anda bahwa tes panjang akan menjadi indikator yang lebih baik bahwa drive itu sehat, tetapi ketika gagal baik tes pendek dan alat angkut di 10% pertama drive, saya pikir kita dapat menyimpulkan bahwa drive tersebut cukup masuk akal. tembakan. Apa yang Anda harapkan akan diungkapkan oleh pengujian yang lebih luas?
MadHatter mendukung Monica
2
@ JorgeNerín <grin> masuk akal! Saya hanya berbicara begitu karena OP memulai dengan antropomorfisasi drive-nya: " Saya hanya mencoba menjalankan tes pada hdd saya dan tidak ingin menyelesaikan tes diri ". Saya tidak berpikir salah satu dari kita berpikir drive itu hidup, juga tidak menjadwalkan tes mandiri dengan sendirinya!
MadHatter mendukung Monica
10

Untuk menjawab pertanyaan Anda, tes SMART yang gagal adalah indikasi pasti kegagalan drive yang akan terjadi. Anda harus mencadangkan data Anda dan mengganti drive sesegera mungkin untuk mencegah potensi kehilangan data.

@ sj0h menyebutkan Hitungan Siklus Beban, yang sangat tinggi pada 447.630. (Kebanyakan hard drive modern dirancang untuk menahan 600.000 siklus pemuatan / pembongkaran.) Ini biasanya disebabkan oleh fitur Advanced Power Management (APM), yang mencoba menghemat daya dengan memarkir kepala (mengeluarkannya dari piringan) setelah beberapa detik diam. Kepala dimasukkan kembali ke piring ketika diperlukan. Pada sebagian besar sistem, di mana hard drive mendapatkan aktivitas intermittent, on dan off, ini dapat menyebabkan banyak siklus bongkar / muat terjadi. Untuk mematikan APM, jalankan perintah berikut di prompt root:

smartctl -s apm,off /dev/sda

Perintah ini perlu dijalankan setiap kali sistem digerakkan daya atau ditidurkan atau drive dimatikan, karena pengaturan ini tidak dipertahankan saat drive dimatikan.

Dalam pengalaman saya, melakukan ini akan secara dramatis mengurangi jumlah siklus muat / bongkar dan akibatnya kemungkinan Anda akan mengalami kegagalan semacam ini lagi di masa depan. Namun, perlu diketahui bahwa melakukan ini meningkatkan konsumsi daya dan suhu drive. Jika drive terus berjalan pada suhu lebih dari 50 ° C, risiko kegagalan prematur meningkat, jadi Anda mungkin ingin membiarkan APM menyala (atau menyalakannya jika mati) selama bulan-bulan yang lebih hangat.

bwDraco
sumber
2

Selain dari kegagalan baca, pertimbangkan juga Hitungan Siklus Beban. Pada hampir 500.000 ini dapat mengindikasikan alasan kegagalan, atau setidaknya keausan siklus muatan tinggi. Ada siklus pemuatan untuk setiap menit waktu pengaktifan. Setelah Anda mengganti drive, pastikan drive baru tidak melakukan ini juga.

sj0h
sumber
Pengamatan yang sangat bagus. Bagaimana seseorang dapat mendiagnosis mengapa drive berputar dan mundur setiap menit?
dotancohen
@dotancohen, lihat jawaban saya — APM yang harus disalahkan.
bwDraco
2

Ya, Anda memiliki 16 sektor yang tidak dapat dibaca, Anda telah mencoba melakukan beberapa tes yang semuanya gagal di area yang sama dengan drive, jadi, buat cadangan dengan cepat, tetapi perlu diingat bahwa Anda memiliki data yang sudah tidak dapat diakses dengan sekarang berlama-lama di sekitar sektor 92290592, 92290596.

Anda mungkin memiliki area bermasalah lainnya, Anda masih tidak tahu apakah 16 sektor itu berurutan atau tersebar, jika Anda ingin bermain setelah cadangan, Anda dapat melakukan tes mandiri selektif dengan -t pilih, startlba-endlba.

Current_Pending_Sector berarti firmware hard disk telah mencoba membacanya, tetapi tidak bisa, itu akan mencoba beberapa kali lebih banyak (setiap kali OS memintanya) sampai gagal dan menandainya sebagai Offline_Uncorrectable atau akan menggantikan sektor yang rusak untuk sektor cadangan lain jika OS menulis untuk itu (sehingga meningkatkan Reallocated_Sector_Ct ketika melakukannya).

Jorge Nerín
sumber
1

Saya pribadi akan mengganti drive. Jika Anda, karena alasan tertentu belum ingin melakukan itu, tetapi tetap menggunakan drive untuk sementara waktu, Anda perlu beberapa cara untuk memastikan bahwa Anda tidak secara tidak sengaja menggunakan area buruk untuk file baru.

Saya memiliki drive pada Mac lama yang hanya merekam video, dan memutuskan bahwa saya belum ingin mengubahnya, karena videonya bagus untuk dimiliki. Jadi saya perlu mengisolasi kesalahan. Pertama-tama saya membuat folder kosong hanya untuk file-file buruk, dan kemudian saya mencoba membaca semua file yang ada pada disk dan semua yang ada kesalahannya dipindahkan ke direktori file-buruk (semoga hanya tidak penting).

Kemudian saya membuat banyak file unik yang bernama satu megabyte untuk mengisi harddisk (jadi semua ruang kosong sekarang di salah satu file 1 MB) dan kemudian mengulangi prosedur. Semua file dengan kesalahan di dalamnya, dipindahkan ke direktori file-buruk, dan yang tersisa bagus dan dapat dihapus untuk mendapatkan kembali ruang yang buruk.

Anda sekarang dapat menggunakan drive sedikit lebih lama, tetapi jangan menggunakannya untuk hal-hal penting. Ini akan gagal lebih banyak dan kemungkinan besar akan merepotkan ketika itu terjadi.

Thorbjørn Ravn Andersen
sumber
1

Ini bukan pertanda baik. Anda harus memastikan bahwa isi disk dicadangkan, dan tidak menggunakan disk untuk hal-hal penting.

Namun, saya telah melihat disk dengan sektor gagal yang mengalokasikannya dan tetap operasional selama bertahun-tahun, sehingga Anda dapat menyimpannya sebentar, misalnya, untuk hal-hal yang tidak penting, atau cadangan tambahan.

Satu hal yang harus dilakukan adalah melihat file mana yang rusak oleh sektor yang tidak dapat dibaca, dan menulis ke sektor ini untuk memaksa realokasi oleh disk (memindahkannya dari "Current_Pending_Sector" ke "Reallocated_Sector_Ct"). Jika menggunakan Linux, lihat http://smartmontools.sourceforge.net/badblockhowto.html . Setelah sektor-sektor telah dialokasikan kembali, swa-uji harus lulus atau melaporkan lebih banyak sektor yang tidak dapat dibaca.

Saya tidak setuju dengan sebagian besar jawaban karena saya tidak berpikir bahwa bad sector selalu merupakan indikasi kegagalan yang akan terjadi. Seperti http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/ mengatakan, "setiap harddrive mulai menghasilkan sektor buruk di beberapa titik dalam hidupnya".

a3nm
sumber
sementara saya setuju bahwa kegagalan tidak pasti dengan sektor buruk terjadi, kemungkinan driver gagal setelah satu sektor buruk meningkat secara signifikan (saya pikir itu ada di laporan google juga, tetapi saya tidak dapat menemukan sumber aktual saat ini)
Dennis Nolte