Berapa banyak realokasi sektor SMART yang mengindikasikan adanya masalah?

17

Saya memiliki alat NAS yang baru berusia lebih dari sebulan. Ini dikonfigurasikan ke email saya peringatan yang dihasilkan dari data SMART hard drive. Setelah satu hari, salah satu hard drive melaporkan bahwa suatu sektor menjadi buruk dan dialokasikan kembali. Selama minggu pertama, jumlah itu naik menjadi enam sektor total untuk hard drive yang dimaksud. Setelah sebulan, jumlahnya berada di sembilan sektor yang dialokasikan kembali. Tingkat pasti tampaknya melambat.

NAS dikonfigurasikan dengan enam drive 1,5 TB dalam konfigurasi RAID-5. Dengan drive berkapasitas tinggi seperti itu, saya berharap sektor akan gagal dari waktu ke waktu, jadi saya tidak khawatir ketika beberapa sektor pertama dipindahkan. Itu menggangguku meskipun tidak ada disk lain yang melaporkan masalah.

Berapa tingkat relokasi, atau jumlah total relokasi, yang harus saya mulai khawatirkan terhadap kesehatan drive? Mungkinkah ini bervariasi berdasarkan kapasitas drive?

Jeremy
sumber
bagus, Jeremy. salah satu yang terbaik di serverfault karena banyak orang lain di sini akan merasa berguna dan tidak mudah untuk menemukan jawabannya. pasti layak lebih dari +2. Anda mungkin ingin mengulangi pertanyaan itu sehingga tidak spesifik untuk NetGear, tetapi penyimpanan secara umum sekalipun
nama pengguna
Terima kasih atas umpan baliknya, saya membuat perubahan yang Anda sarankan dan memperbarui situasi.
Jeremy
1
Saya mengganti drive di satu sektor yang dialokasikan kembali. Anda harus mengharapkan nol selama rentang waktu garansi drive. Pabrikan selalu menghormati garansi pada drive ini.
Michael Hampton

Jawaban:

13

Drive, seperti kebanyakan komponen lainnya, memiliki tingkat kegagalan kurva bathtub. Mereka gagal banyak pada awalnya, memiliki tingkat kegagalan yang relatif rendah di tengah, dan kemudian gagal banyak ketika mereka mencapai akhir hidup mereka.

Sama seperti seluruh drive mengikuti kurva ini, area tertentu dari disk juga akan mengikuti kurva ini. Anda akan melihat banyak alokasi ulang sektor pada awal menggunakan drive, tetapi ini akan meruncing. Ketika drive mulai gagal di akhir hayat, ia akan mulai kehilangan lebih banyak sektor.

Anda tidak perlu khawatir tentang 6 (tergantung pada drive - berkonsultasi dengan pabrikan), tetapi Anda perlu menonton dan melihat frekuensi setiap realokasi baru. Jika penurunan mempercepat atau tetap sama, khawatir. Kalau tidak, itu akan baik-baik saja setelah periode awal break-in.

-Adam

Adam Davis
sumber
Poin kecil: Drive akan gagal PANJANG sebelum MTBF mereka. Saya pikir maksud Anda mereka banyak gagal ketika mereka mendekati harapan hidup mereka.
Eddie
5
Bukankah Google benar-benar menyangkal teori "kurva bak mandi"?
Insyte
20

Membaca ulang makalah Google tentang masalah ini, " Tren Kegagalan dalam Populasi Drive Disk yang Besar ", saya rasa saya dapat dengan aman mengatakan bahwa jawaban Adam salah. Dalam analisis mereka tentang populasi drive yang sangat besar, sekitar 9% memiliki jumlah realokasi yang tidak nol. Kutipan jitu adalah ini:

Setelah realokasi pertama mereka, drive lebih dari 14 kali lebih besar kemungkinannya gagal dalam 60 hari daripada drive tanpa jumlah realokasi, menjadikan ambang kritis untuk parameter ini juga satu.

Ini bahkan lebih menarik ketika berhadapan dengan "realokasi offline", yang merupakan realokasi yang ditemukan selama penggosokan latar belakang drive, bukan selama operasi IO yang diminta sebenarnya. Kesimpulan mereka:

Setelah realokasi offline pertama, drive memiliki peluang kegagalan lebih dari 21 kali lebih tinggi dalam waktu 60 hari daripada drive tanpa realokasi offline; efek yang sekali lagi lebih drastis daripada realokasi total.

Kebijakan saya mulai sekarang adalah bahwa drive dengan jumlah realokasi non-nol dijadwalkan untuk penggantian.

Insyte
sumber
Itu menarik, saya pernah mendengar makalah itu tetapi saya mungkin perlu membacanya lagi. FWIW, 4 dari 6 drive di NAS saya telah merelokasi sektor. Terima kasih atas jawabannya.
Jeremy
3

Drive yang berbeda mungkin memiliki parameter yang berbeda. Pada drive yang terakhir saya periksa itu adalah disk seri perusahaan 1TB dari satu vendor ada 2048 sektor yang dicadangkan untuk realokasi.

Anda dapat memperkirakan jumlah sektor yang dicadangkan yang terlihat dalam laporan SMART pada drive yang telah mendapatkan jumlah sektor realokasi yang bukan nol. Pertimbangkan laporan tentang drive yang gagal di bawah ini.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Di sini 95% dari kapasitas cadangannya telah digunakan yaitu 1955 sektor. Oleh karena itu kapasitas awal adalah sekitar 2057. Bahkan 2048, perbedaannya adalah karena kesalahan pembulatan.

SMART mengubah drive menjadi keadaan gagal ketika jumlah sektor yang dialokasikan kembali mencapai batas tertentu. Untuk drive yang dimaksud ambang batas ini ditetapkan pada 64% dari kapasitas yang dipesan. Itu kira-kira 1.310 sektor yang dipetakan kembali.

Namun sektor-sektor yang dipesan tidak berada dalam rentang yang berkelanjutan. Alih-alih mereka dibagi menjadi beberapa kelompok, masing-masing kelompok digunakan untuk memetakan kembali sektor-sektor dari bagian tertentu dari disk. Ini dilakukan untuk menjaga data lokal ke suatu area pada disk.

Kelemahan dari lokalitas adalah bahwa disk mungkin memiliki banyak sektor yang dipesan. Namun satu area mungkin sudah kehabisan kapasitas cadangan. Dalam hal ini perilaku tergantung pada firmware. Pada satu drive kami amati itu masuk ke kondisi GAGAL dan memblokir ketika kesalahan terjadi di bagian yang tidak lagi dilindungi.

Dmitri Chubarov
sumber
Bagaimana Anda menentukan bahwa "ada 2048 sektor yang dicadangkan untuk realokasi"?
AJ.
Mungkin 2047 adalah jumlah maksimum sektor yang dapat dialokasikan kembali. Salah satu drive saya persis 2047 ketika dibeli dari eBay untuk "baru", yaitu 0x7FF, juga b11.111.111.111. Pergi ke 2048 akan menghabiskan sedikit tambahan.
Davide
2

Anda mungkin ingin menjalankan swa-uji SMART yang panjang, jika drive mendukungnya. Ini dapat memberi Anda informasi lebih lanjut tentang status drive. Jika NAS Anda tidak dapat melakukan ini, dan jika Anda dapat menarik keluar drive atau mematikan NAS selama beberapa jam, maka Anda dapat melakukan swa-uji panjang dengan hard disk dicolokkan ke komputer lain.

Eddie
sumber
1

Ketika drive ini berperilaku baru seperti ini, itu tidak bisa dipercaya sama sekali!

Kirim kembali sesegera mungkin, dan dapatkan drive pengganti.

Nils-Anders Nøttseter
sumber
1

Pabrikan yang berbeda memiliki angka "kerugian yang dapat diterima" yang berbeda (ide yang sama dengan monitor dan piksel buruk). Periksa dengan produsen drive untuk mencari tahu apa standar mereka.

Itu memang terlihat seperti tren yang buruk ...

Brian Knoblauch
sumber
-1

Western Digital secara khusus bangga dengan teknologi yang memulihkan sektor buruk pada waktu yang dapat diterima alih-alih membekukan disk yang ditempatkan di RAID, namanya TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ). Waktu biasanya 5,7 detik.

Seperti yang saya temukan di web ada drive WD disk dengan opsi dinonaktifkan tetapi beberapa orang mengaktifkan fitur ini pada drive WD hijau murah kemudian menempatkannya ke dalam RAID.

Utilitas WDTLER dihapus dari situs dukungan WD tetapi dapat dengan mudah ditemukan melalui Google.

PS Saya menggunakan utilitas ini hanya untuk membaca status dan saya tidak menggunakan RAID sekarang :)


sumber