Saya ingin membangun server penyimpanan dan membeli 10 x 2TB WD RED's
. Yang HDD's
baru saja tiba.
Apakah ada alat yang kalian gunakan untuk memeriksa drive buruk atau untuk bertahan terbaik terhadap kematian bayi sebelum menyalin data nyata ke disk Anda?
Apakah lebih baik untuk memeriksa setiap satu HDD
atau menguji array ( ZFS raid-z2
) melalui menyalin banyak data di dalamnya?
Jawaban:
Saya memiliki pertanyaan yang sama 2 bulan yang lalu. Setelah mengirim disk yang gagal, disk pengganti gagal di NAS saya setelah 3 hari. Jadi saya memutuskan sekarang saya akan menguji penggantian baru sebelum memasukkannya ke dalam produksi. Saya tidak menguji setiap disk baru yang saya beli, hanya pada disk 'yang diperbaharui', yang saya tidak percaya sepenuhnya.
Jika Anda memutuskan ingin menguji disk ini, saya sarankan menjalankan pemindaian badblock dan tes SMART yang diperluas pada hard disk baru.
Pada disk 2TB ini membutuhkan waktu hingga 48 jam, Perintah badblock menulis disk penuh dengan pola, kemudian membaca blok lagi untuk melihat apakah pola itu benar-benar ada, dan akan mengulanginya dengan 4 pola yang berbeda.
Perintah ini mungkin tidak akan benar-benar menampilkan blok buruk pada disk baru, karena disk mengalokasikan blok buruk hari ini.
Jadi sebelum dan sesudah ini saya menjalankan tes cerdas, dan memeriksa jumlah sektor yang dialokasikan kembali dan saat ini tertunda. Jika salah satu dari ini sudah naik, disk Anda sudah memiliki beberapa blok buruk dan mungkin terbukti tidak dapat dipercaya.
Setelah ini saya menjalankan tes SMART diperpanjang lagi.
Anda mungkin ingin menginstal smartctl atau smartmontools terlebih dahulu.
Peringatan , flag badblocks -w akan menimpa semua data pada disk Anda, jika Anda hanya ingin melakukan pemeriksaan baca, tanpa menimpa disk, gunakan
badblocks -vs /dev/sdX
Jika setelah ini nilai-nilai cerdas Anda tampak ok Saya akan mempercayai disk.
Untuk mengetahui arti setiap nilai pintar, Anda dapat mulai mencari di sini
http://en.wikipedia.org/wiki/Self-Monitoring__Analysis,_and_Reporting_Technology
sumber
Ini adalah disk baru. Entah mereka akan gagal atau tidak. Anda sudah selangkah lebih maju dengan menggunakan sistem file ZFS, yang akan memberi Anda wawasan hebat tentang kesehatan raid dan sistem file ...
Saya tidak akan melakukan apa pun selain hanya membangun array. Itulah poin dari redundansi. Anda tidak akan dapat menyebabkan kerusakan drive dengan metode lain yang tercantum.
sumber
Anda dapat menggunakan Bonnie ++ untuk pengujian. Itu sempurna dapat meniru pola perilaku server file.
Sebagai contoh:
Tes akan berjalan sebagai pengguna 'tidak ada' dan akan membuat / menulis ulang / menghapus 100 * 1024 file, dari 200 hingga 150000 byte per file, dalam 100 direktori yang diolah otomatis di bawah / home / tmp. Dan jumlah tes = 300. Anda dapat bermain-main menghitung jumlah / ukuran file dan jumlah pengulangan tes.
sumber
Saya biasanya hanya melakukan init RAID penuh dan jika ada, mulai mengisi sistem file selama ini, sepanjang waktu mengetahui bahwa mungkin ada masalah karena drive yang mati. Dengan cara ini, saya tidak membuang waktu untuk beberapa jenis tes yang cukup bisa diandalkan dan saya akan segera menangkap drive yang lemah nyata. Setelah itu, mungkin masih ada beberapa peluang peningkatan untuk kegagalan drive karena "kematian bayi", tetapi tidak ada cara praktis untuk menghilangkan ini.
Dalam praktiknya, tidak satu pun dari beberapa ratus disk terakhir yang saya gunakan dalam RAID memiliki masalah selama tahun pertama operasi.
sumber
Saya bekerja untuk perusahaan yang melakukan pengujian semacam ini setiap hari. Dan Ya, kami menguji setiap hard drive yang kami beli. Proses kami dimulai dengan menjalankan drive melalui program berbasis DOS gratis yang disebut HDAT2. Gratis untuk mengunduh. Itu dapat mengakses SMART dan beberapa fitur lain dari drive yang tidak dapat diakses dari lingkungan Windows. Bergantung pada hasil di sana, kami akan menjalankannya melalui salah satu dari beberapa jalur perangkat keras khusus, tetapi pada intinya mereka sebagian besar hanya menjalankan uji coba SMART jangka pendek, Uji Panjang, penghapusan aman dan Semua Baca untuk memverifikasi sektor. Saran saya adalah menjalankan penghapusan aman seluruh disk, kemudian jalankan semua baca, kemudian tes diri singkat SMART. Urutan ini penting karena swa-uji singkat mungkin tidak menemukan apa pun jika dijalankan pada awal pengujian Anda, tetapi setelah menulis penuh dan membaca cakram itu mungkin akan mengambil sesuatu. Semoga ini membantu.
sumber
Anda dapat menggunakan suite uji pabrikan, atau sesuatu seperti SpinRite untuk menyapu keseluruhan disk. Ini juga merupakan ide bagus untuk melihat nilai-nilai SMART , mencari sektor-sektor buruk dan tanda-tanda hari tua / kegagalan lainnya.
sumber
Jika Anda benar-benar ingin menguji, maka gunakan
badblocks
tes tulis. Ini akan menulis pola data ke disk kemudian membacanya untuk memeriksa. Selama ini akan sedikit menekankan disk Anda. Menurut pendapat saya, jika itu berhasil Anda dapat mempercayai disk.Tapi saya pikir ZFS dan cadangan yang baik sudah cukup.
sumber