Saya memiliki alat NAS yang baru berusia lebih dari sebulan. Ini dikonfigurasikan ke email saya peringatan yang dihasilkan dari data SMART hard drive. Setelah satu hari, salah satu hard drive melaporkan bahwa suatu sektor menjadi buruk dan dialokasikan kembali. Selama minggu pertama, jumlah itu naik menjadi enam sektor total untuk hard drive yang dimaksud. Setelah sebulan, jumlahnya berada di sembilan sektor yang dialokasikan kembali. Tingkat pasti tampaknya melambat.
NAS dikonfigurasikan dengan enam drive 1,5 TB dalam konfigurasi RAID-5. Dengan drive berkapasitas tinggi seperti itu, saya berharap sektor akan gagal dari waktu ke waktu, jadi saya tidak khawatir ketika beberapa sektor pertama dipindahkan. Itu menggangguku meskipun tidak ada disk lain yang melaporkan masalah.
Berapa tingkat relokasi, atau jumlah total relokasi, yang harus saya mulai khawatirkan terhadap kesehatan drive? Mungkinkah ini bervariasi berdasarkan kapasitas drive?
sumber
Jawaban:
Drive, seperti kebanyakan komponen lainnya, memiliki tingkat kegagalan kurva bathtub. Mereka gagal banyak pada awalnya, memiliki tingkat kegagalan yang relatif rendah di tengah, dan kemudian gagal banyak ketika mereka mencapai akhir hidup mereka.
Sama seperti seluruh drive mengikuti kurva ini, area tertentu dari disk juga akan mengikuti kurva ini. Anda akan melihat banyak alokasi ulang sektor pada awal menggunakan drive, tetapi ini akan meruncing. Ketika drive mulai gagal di akhir hayat, ia akan mulai kehilangan lebih banyak sektor.
Anda tidak perlu khawatir tentang 6 (tergantung pada drive - berkonsultasi dengan pabrikan), tetapi Anda perlu menonton dan melihat frekuensi setiap realokasi baru. Jika penurunan mempercepat atau tetap sama, khawatir. Kalau tidak, itu akan baik-baik saja setelah periode awal break-in.
-Adam
sumber
Membaca ulang makalah Google tentang masalah ini, " Tren Kegagalan dalam Populasi Drive Disk yang Besar ", saya rasa saya dapat dengan aman mengatakan bahwa jawaban Adam salah. Dalam analisis mereka tentang populasi drive yang sangat besar, sekitar 9% memiliki jumlah realokasi yang tidak nol. Kutipan jitu adalah ini:
Ini bahkan lebih menarik ketika berhadapan dengan "realokasi offline", yang merupakan realokasi yang ditemukan selama penggosokan latar belakang drive, bukan selama operasi IO yang diminta sebenarnya. Kesimpulan mereka:
Kebijakan saya mulai sekarang adalah bahwa drive dengan jumlah realokasi non-nol dijadwalkan untuk penggantian.
sumber
Drive yang berbeda mungkin memiliki parameter yang berbeda. Pada drive yang terakhir saya periksa itu adalah disk seri perusahaan 1TB dari satu vendor ada 2048 sektor yang dicadangkan untuk realokasi.
Anda dapat memperkirakan jumlah sektor yang dicadangkan yang terlihat dalam laporan SMART pada drive yang telah mendapatkan jumlah sektor realokasi yang bukan nol. Pertimbangkan laporan tentang drive yang gagal di bawah ini.
Di sini 95% dari kapasitas cadangannya telah digunakan yaitu 1955 sektor. Oleh karena itu kapasitas awal adalah sekitar 2057. Bahkan 2048, perbedaannya adalah karena kesalahan pembulatan.
SMART mengubah drive menjadi keadaan gagal ketika jumlah sektor yang dialokasikan kembali mencapai batas tertentu. Untuk drive yang dimaksud ambang batas ini ditetapkan pada 64% dari kapasitas yang dipesan. Itu kira-kira 1.310 sektor yang dipetakan kembali.
Namun sektor-sektor yang dipesan tidak berada dalam rentang yang berkelanjutan. Alih-alih mereka dibagi menjadi beberapa kelompok, masing-masing kelompok digunakan untuk memetakan kembali sektor-sektor dari bagian tertentu dari disk. Ini dilakukan untuk menjaga data lokal ke suatu area pada disk.
Kelemahan dari lokalitas adalah bahwa disk mungkin memiliki banyak sektor yang dipesan. Namun satu area mungkin sudah kehabisan kapasitas cadangan. Dalam hal ini perilaku tergantung pada firmware. Pada satu drive kami amati itu masuk ke kondisi GAGAL dan memblokir ketika kesalahan terjadi di bagian yang tidak lagi dilindungi.
sumber
Anda mungkin ingin menjalankan swa-uji SMART yang panjang, jika drive mendukungnya. Ini dapat memberi Anda informasi lebih lanjut tentang status drive. Jika NAS Anda tidak dapat melakukan ini, dan jika Anda dapat menarik keluar drive atau mematikan NAS selama beberapa jam, maka Anda dapat melakukan swa-uji panjang dengan hard disk dicolokkan ke komputer lain.
sumber
Ketika drive ini berperilaku baru seperti ini, itu tidak bisa dipercaya sama sekali!
Kirim kembali sesegera mungkin, dan dapatkan drive pengganti.
sumber
Pabrikan yang berbeda memiliki angka "kerugian yang dapat diterima" yang berbeda (ide yang sama dengan monitor dan piksel buruk). Periksa dengan produsen drive untuk mencari tahu apa standar mereka.
Itu memang terlihat seperti tren yang buruk ...
sumber
Western Digital secara khusus bangga dengan teknologi yang memulihkan sektor buruk pada waktu yang dapat diterima alih-alih membekukan disk yang ditempatkan di RAID, namanya TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ). Waktu biasanya 5,7 detik.
Seperti yang saya temukan di web ada drive WD disk dengan opsi dinonaktifkan tetapi beberapa orang mengaktifkan fitur ini pada drive WD hijau murah kemudian menempatkannya ke dalam RAID.
Utilitas WDTLER dihapus dari situs dukungan WD tetapi dapat dengan mudah ditemukan melalui Google.
PS Saya menggunakan utilitas ini hanya untuk membaca status dan saya tidak menggunakan RAID sekarang :)
sumber