Cara terbaik untuk menguji HDD baru untuk server penyimpanan murah

31

Saya ingin membangun server penyimpanan dan membeli 10 x 2TB WD RED's. Yang HDD'sbaru saja tiba.

Apakah ada alat yang kalian gunakan untuk memeriksa drive buruk atau untuk bertahan terbaik terhadap kematian bayi sebelum menyalin data nyata ke disk Anda?

Apakah lebih baik untuk memeriksa setiap satu HDDatau menguji array ( ZFS raid-z2) melalui menyalin banyak data di dalamnya?

s1lv3r
sumber
1
Saya tahu ada beberapa alat khusus vendor seperti "WD Data LifeGuard Diagnostics". Tapi saya bertanya-tanya apa yang orang-orang lakukan, yang membeli banyak hardisk. Saya ragu mereka memeriksa setiap hard drive (yang membutuhkan banyak waktu ..) jadi saya ingin tahu apakah ada alat yang dapat melakukan tes SMART penuh pada semua harddisk sekaligus?
s1lv3r
3
Apa saja yang menulis ke drive dapat digunakan sebagai tes; satu atau dua gesekan penuh dari array harus cukup untuk menangkap kematian bayi. Adalah ide yang sangat bagus untuk membeli drive dari vendor / batch yang berbeda saat Anda mendapatkan lebih dari satu pasangan - secara signifikan mengurangi kemungkinan beberapa drive gagal pada waktu yang bersamaan (karena cacat pabrikan yang serupa).
Chris S

Jawaban:

14

Saya memiliki pertanyaan yang sama 2 bulan yang lalu. Setelah mengirim disk yang gagal, disk pengganti gagal di NAS saya setelah 3 hari. Jadi saya memutuskan sekarang saya akan menguji penggantian baru sebelum memasukkannya ke dalam produksi. Saya tidak menguji setiap disk baru yang saya beli, hanya pada disk 'yang diperbaharui', yang saya tidak percaya sepenuhnya.

Jika Anda memutuskan ingin menguji disk ini, saya sarankan menjalankan pemindaian badblock dan tes SMART yang diperluas pada hard disk baru.

Pada disk 2TB ini membutuhkan waktu hingga 48 jam, Perintah badblock menulis disk penuh dengan pola, kemudian membaca blok lagi untuk melihat apakah pola itu benar-benar ada, dan akan mengulanginya dengan 4 pola yang berbeda.

Perintah ini mungkin tidak akan benar-benar menampilkan blok buruk pada disk baru, karena disk mengalokasikan blok buruk hari ini.

Jadi sebelum dan sesudah ini saya menjalankan tes cerdas, dan memeriksa jumlah sektor yang dialokasikan kembali dan saat ini tertunda. Jika salah satu dari ini sudah naik, disk Anda sudah memiliki beberapa blok buruk dan mungkin terbukti tidak dapat dipercaya.

Setelah ini saya menjalankan tes SMART diperpanjang lagi.

Anda mungkin ingin menginstal smartctl atau smartmontools terlebih dahulu.

Peringatan , flag badblocks -w akan menimpa semua data pada disk Anda, jika Anda hanya ingin melakukan pemeriksaan baca, tanpa menimpa disk, gunakanbadblocks -vs /dev/sdX

sudo smartctl -a /dev/sdX
# record these numbers
sudo badblocks -wvs /dev/sdX
# let it run for 48 hours
sudo smartctl -a /dev/sdX
# compare numbers
sudo smartctl -t long /dev/sdX
# this might take another hour or 2, check results periodically with
sudo smartctl -a /dev/sdX

Jika setelah ini nilai-nilai cerdas Anda tampak ok Saya akan mempercayai disk.

Untuk mengetahui arti setiap nilai pintar, Anda dapat mulai mencari di sini

http://en.wikipedia.org/wiki/Self-Monitoring__Analysis,_and_Reporting_Technology

Jens Timmerman
sumber
Seperti yang lain dugaan ini mungkin melakukan banyak hal, tetapi karena saya hanya memiliki 10 disk dan tentu saja tidak dapat melakukan yang buruk, saya hanya memeriksa semua disk dengan cara yang Anda sarankan sekarang. Terima kasih atas jawaban komprehensif Anda.
s1lv3r
23

Ini adalah disk baru. Entah mereka akan gagal atau tidak. Anda sudah selangkah lebih maju dengan menggunakan sistem file ZFS, yang akan memberi Anda wawasan hebat tentang kesehatan raid dan sistem file ...

Saya tidak akan melakukan apa pun selain hanya membangun array. Itulah poin dari redundansi. Anda tidak akan dapat menyebabkan kerusakan drive dengan metode lain yang tercantum.

putih
sumber
1
Setuju dengan ini - Anda sedang membangun sebuah array. Jika drive gagal ketika Anda mulai menempatkan data, maka itu tidak masalah, Anda menggantinya dan array sembuh sendiri. Menguji drive untuk masalah sebelum menggunakannya tidak akan memberi Anda ide yang tepat apakah mereka akan gagal dalam kehidupan nyata - kehidupan nyata tidak seperti tes!
Ashley
1
Saya setuju "kehidupan nyata tidak seperti tes" tetapi saya juga menemukan dua kegagalan drive melalui badblocks. Seandainya saya menempatkan keduanya ke bagian yang sama dari RAID 1, 5, atau 10, saya akan kehilangan seluruh RAID.
rjt
1
@ rjt mungkin tidak. Sektor buruk akan dialokasikan kembali dan drive tidak akan gagal pada saat yang sama. Plus, tidak semua kegagalan drive adalah media atau hasil dari blok buruk. Bagaimana jika bantalan drive aus atau rusak?
ewwhite
saya tidak membuat keputusan tentang data penting misi mungkin . Google Hard Drive Study mengatakan bahwa drive aus dalam 90 hari pertama atau setelah 3 tahun. badblock membantu menghilangkan buah yang menggantung rendah.
rjt
1
@ rjt Tentu saja Anda membuat keputusan tentang data misi-kritis pada "mungkin" - Jika tidak, Anda tidak akan dapat menyimpan data pada drive apa pun, terlepas dari berapa banyak pengujian yang Anda lakukan.
voretaq7
10

Anda dapat menggunakan Bonnie ++ untuk pengujian. Itu sempurna dapat meniru pola perilaku server file.

Sebagai contoh:

# bonnie++ -u nobody -d /home/tmp -n 100:150000:200:100 -x 300

Tes akan berjalan sebagai pengguna 'tidak ada' dan akan membuat / menulis ulang / menghapus 100 * 1024 file, dari 200 hingga 150000 byte per file, dalam 100 direktori yang diolah otomatis di bawah / home / tmp. Dan jumlah tes = 300. Anda dapat bermain-main menghitung jumlah / ukuran file dan jumlah pengulangan tes.

Shtlzut
sumber
9

Saya biasanya hanya melakukan init RAID penuh dan jika ada, mulai mengisi sistem file selama ini, sepanjang waktu mengetahui bahwa mungkin ada masalah karena drive yang mati. Dengan cara ini, saya tidak membuang waktu untuk beberapa jenis tes yang cukup bisa diandalkan dan saya akan segera menangkap drive yang lemah nyata. Setelah itu, mungkin masih ada beberapa peluang peningkatan untuk kegagalan drive karena "kematian bayi", tetapi tidak ada cara praktis untuk menghilangkan ini.

Dalam praktiknya, tidak satu pun dari beberapa ratus disk terakhir yang saya gunakan dalam RAID memiliki masalah selama tahun pertama operasi.

Sven
sumber
8

Saya bekerja untuk perusahaan yang melakukan pengujian semacam ini setiap hari. Dan Ya, kami menguji setiap hard drive yang kami beli. Proses kami dimulai dengan menjalankan drive melalui program berbasis DOS gratis yang disebut HDAT2. Gratis untuk mengunduh. Itu dapat mengakses SMART dan beberapa fitur lain dari drive yang tidak dapat diakses dari lingkungan Windows. Bergantung pada hasil di sana, kami akan menjalankannya melalui salah satu dari beberapa jalur perangkat keras khusus, tetapi pada intinya mereka sebagian besar hanya menjalankan uji coba SMART jangka pendek, Uji Panjang, penghapusan aman dan Semua Baca untuk memverifikasi sektor. Saran saya adalah menjalankan penghapusan aman seluruh disk, kemudian jalankan semua baca, kemudian tes diri singkat SMART. Urutan ini penting karena swa-uji singkat mungkin tidak menemukan apa pun jika dijalankan pada awal pengujian Anda, tetapi setelah menulis penuh dan membaca cakram itu mungkin akan mengambil sesuatu. Semoga ini membantu.

Nick
sumber
1
serverfault.com/a/501870/117546 paling masuk akal bagi saya, tapi saya bukan ahli. Mengapa perusahaan Anda menguji hard drive. Saya akan berpikir bahwa tes yang paling efektif adalah menggunakan drive.
emory
4

Anda dapat menggunakan suite uji pabrikan, atau sesuatu seperti SpinRite untuk menyapu keseluruhan disk. Ini juga merupakan ide bagus untuk melihat nilai-nilai SMART , mencari sektor-sektor buruk dan tanda-tanda hari tua / kegagalan lainnya.

hampir tidak
sumber
3

Jika Anda benar-benar ingin menguji, maka gunakan badblockstes tulis. Ini akan menulis pola data ke disk kemudian membacanya untuk memeriksa. Selama ini akan sedikit menekankan disk Anda. Menurut pendapat saya, jika itu berhasil Anda dapat mempercayai disk.

Tapi saya pikir ZFS dan cadangan yang baik sudah cukup.

Batu
sumber