Tingkat Kegagalan Tinggi dari Drive Besar?

24

Saya baru-baru ini menggunakan server dengan drive 5x 1TB (saya tidak akan menyebutkan merek mereka, tapi itu salah satu dari dua besar). Saya awalnya diperingatkan untuk tidak mendapatkan drive berkapasitas besar, seperti seorang teman menyarankan saya bahwa mereka memiliki MTBF yang sangat rendah, dan saya akan lebih baik mendapatkan lebih banyak, drive berkapasitas lebih kecil karena mereka tidak 'didorong ke batas' dalam hal apa teknologi dapat menangani.

Sejak itu, tiga dari lima disk telah gagal. Untungnya saya bisa mengganti dan membangun kembali array sebelum disk berikutnya gagal, tapi itu membuat saya sangat sangat khawatir.

Apa yang kamu pikirkan? Apakah saya mendapatkan mereka dalam batch yang buruk? Atau disk yang lebih baru / berkapasitas lebih tinggi lebih cenderung gagal daripada disk yang dicoba dan diuji?

Mark Henderson
sumber
2
Mengapa Anda tidak menyebutkan mereknya? Saya kira batch Anda adalah 7200,11 cudas yang diketahui memiliki kecenderungan kematian dini.
Dani
Sebenarnya, mereka adalah Digitals Barat ...
Mark Henderson
Sebagai catatan, saya mengambil semuanya kembali dan mendapatkan yang baru, dan mereka sudah berjalan selama dua bulan sekarang tanpa masalah sama sekali.
Mark Henderson
Saya memiliki pengalaman serupa. 16 drive 1,5TB. Dalam 4 bulan pertama, 4 hard gagal. Dalam tiga tahun berikutnya, satu soft gagal.
David Schwartz

Jawaban:

19

Anda mungkin mendapat batch yang buruk. Saya gugup menyebarkan array yang dibangun dari disk dari batch yang sama karena alasan itu - mereka cenderung memiliki rentang hidup yang sama, yang membuat mendapatkan penggantian berpotensi sangat menarik ketika salah satu gagal.

Bukan tidak mungkin ada beberapa cacat desain pada drive, itu sudah pasti terjadi sebelumnya; Namun biasanya Internet penuh dengan keluhan tentang drive jika benar-benar ada yang salah dengan itu, yang bertentangan dengan kebisingan latar belakang biasa yang akan Anda temukan tentang apa pun.

David Mackintosh
sumber
6
+1 Cobalah untuk mengurangi pembelian Anda, sumber dari pedagang yang berbeda atau mencampur merek untuk meringankan ini.
Rob Allen
Atau Anda dapat mengurangi dengan "membakar" drive yang bersumber dari tempat yang sama pada saat yang sama. Jalankan program intensif terhadap mereka selama beberapa jam / hari; durasi terhuyung-huyung untuk mensimulasikan penuaan yang berbeda. Saya membuat program sederhana bernama DriveTest yang menulis data psuedo-random lalu membacanya kembali dan memverifikasi untuk "membakar" dan melakukan tes sederhana secara bersamaan. Tip ini tidak disarankan untuk SSD.
rkagerer
13

Ini adalah pertanyaan yang sulit dijawab kecuali Anda memiliki sumber daya dari organisasi besar. Lihat penelitian Google tentang kegagalan hard disk .

Ketika melakukan pembelian disk secara signifikan, saya akan menentukan ukuran disk kasar dengan biaya terendah per byte, yang umumnya satu generasi lebih tua dari yang terbaru. Ini masuk akal bahwa mereka akan meningkatkan keandalan generasi itu.

Knox
sumber
1
1,5 hingga 2TB adalah tepi pendarahan saat ini, jadi tidakkah 1TB memenuhi kriteria Anda? Mereka cukup murah.
Mark Ransom
Poin yang sangat bagus.
Knox
10

Lebih banyak piring-piring + lebih banyak kepala sama dengan peluang kegagalan yang lebih tinggi.

Ambil dua hard drive WD umum

640GB = dua piring
1TB = tiga piring

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Piring ekstra itu = lebih banyak noise, lebih banyak penggunaan daya, lebih banyak panas, waktu siap drive lebih lambat, lebih rentan terhadap kerusakan goncangan, dan lebih banyak getaran.

Jika mereka membuat desain drive yang sama dengan hanya satu piring, itu akan memiliki spesifikasi yang lebih baik. Dalam kasus ini, ini adalah drive kelas konsumen tetapi drive kelas konsumen kelas atas dengan dua kali lipat cache dan garansi 5 tahun. Anda akan melihat matematika yang sama jika Anda memeriksa dokumentasi dengan seksama pada merek atau gaya hard drive tradisional (piringan berputar). Ini murni masalah fisika bahwa lebih banyak piring membuat drive kurang dapat diandalkan.

Jeff Hengesbach juga benar ketika dia berkata

Perhatian utama dengan drive 'besar' adalah waktu membangun kembali ketika kegagalan terjadi. Semakin besar drive, semakin lama membangun kembali, semakin besar jendela untuk kegagalan drive tambahan dan potensi kehilangan array. Dengan drive "besar", nilai bisnis ketersediaan harus menentukan tingkat risiko yang dapat diterima (kehilangan array) yang akan mendorong pemilihan tingkat RAID dan jumlah drive Anda (Lebih banyak drive = lebih banyak kemungkinan kegagalan drive).

tambahkan sejumlah kecil Graeme Perrow

Drive dengan lima puluh juta sektor memiliki peluang sepuluh kali lipat memiliki sektor yang buruk daripada drive dengan lima juta sektor. Saya mengasumsikan tingkat kegagalan di antara drive besar dan drive kecil sama di sini, yang mungkin bukan asumsi yang baik

Lebih banyak piring-piring = buruk
Lebih banyak ruang penyimpanan adalah kantong campuran. Pro dan Kontra tentang itu sangat banyak.
Lebih banyak sektor benar-benar lebih banyak peluang untuk kesalahan. Tidak harus dalam skala linier tetapi jelas merupakan faktor.

Kecuali Anda membutuhkan ruang lebih dari keandalan saya sarankan tetap berpegang pada drive platter tunggal atau ganda. Dibutuhkan penelitian dan dalam beberapa kasus beruntung untuk mengetahui apa yang akan Anda dapatkan ketika memesan drive karena beberapa produsen tidak hanya menghindari menerbitkan jumlah piring mereka benar-benar dapat menjual lebih dari satu drive di bawah nomor bagian yang sama.

Ambil contoh WD3200AAKS ada versi 320GB platter tunggal dan 320GB platter ganda (160GB x 2). Selain itu ada beberapa lables dan drive housing yang digunakan sehingga Anda tidak dapat dengan mudah melihat drive dan tahu platter mana yang ada di dalamnya. Satu-satunya cara untuk mengetahuinya adalah dengan mencari secara online untuk mengetahui bahwa WD3200AAKS-00B3A0 dan WD3200AAKS-75VYA0 memberi tahu Anda yang merupakan plat tunggal tetapi tidak ada pengecer yang akan memberi tahu Anda mana yang akan Anda dapatkan.

pplrppl
sumber
1
Wow. Itu beberapa hal yang mendalam! Terima kasih! Aku bahkan belum mempertimbangkan jumlah bagian yang bergerak (piring-piring) sebelumnya.
Mark Henderson
3

Saya percaya tingkat kegagalan yang lebih tinggi dari normal adalah indikasi dari setiap teknologi baru. Saya selalu diberitahu untuk tidak membeli model tahun pertama mobil, tunggu sampai mereka menyelesaikan bug. Saya akan mengatakan hal yang sama mungkin berlaku untuk banyak hal lainnya, termasuk hard drive.

Logan
sumber
1
Saya bisa membuktikan analogi seluruh mobil (analogi mobil tidak pernah tersesat, bukan?). Saya akui saya terburu-buru dan tidak melakukan riset sama sekali dengan benar, dan saya membayar harganya sekarang!
Mark Henderson
3

Saya tidak yakin apakah mengatakan 'besar' disk memiliki MTBF yang lebih tinggi atau tidak. Saya memiliki sistem nama besar dengan beberapa drive 750GB dan dalam 2+ tahun terakhir tidak ada yang gagal (750 adalah "besar" 2 tahun yang lalu). Tapi saya juga tahu sistem nama besar yang dibangun ketika 250GB besar dan array itu telah jatuh beberapa kali. Perdebatan MTBF adalah semacam perang suci.

Perhatian utama dengan drive 'besar' adalah waktu membangun kembali ketika kegagalan terjadi. Semakin besar drive, semakin lama membangun kembali, semakin besar jendela untuk kegagalan drive tambahan dan potensi kehilangan array. Dengan drive "besar", nilai bisnis ketersediaan harus menentukan tingkat risiko yang dapat diterima (kehilangan array) yang akan mendorong pemilihan tingkat RAID dan jumlah drive Anda (Lebih banyak drive = lebih banyak kemungkinan kegagalan drive).

Bisnis SATA / RAID telah berkembang sejak beberapa tahun yang lalu. Saya tidak berpikir nama-nama besar akan menawarkannya jika mereka tahu itu akan menjadi masalah dukungan utama atau sumber pelanggan dikecewakan. Saya ingin tahu mengetahui keandalan Anda sekarang setelah Anda mengganti beberapa batch asli.

Jeff Hengesbach
sumber
1

Apakah mereka semua berada di komputer atau pengontrol disk yang sama? Anda bilang Anda harus membangun kembali array. Jika ini masalahnya, maka mungkin ada sesuatu yang salah dengan controller, catu daya, atau memori . Jika tidak, saya juga akan menebak batch drive yang salah. Selain itu, mungkin ada masalah kompatibilitas dengan drive apa pun yang Anda gunakan dengan controller tertentu.

Juga, saya bertanya-tanya ketika orang mengatakan bahwa disk yang lebih besar memiliki MTBF yang lebih tinggi bagaimana cara menghitungnya. Katakanlah Anda memiliki disk 2x250 GB dan 1x500 GB. Mungkin ini naif, tetapi bukankah drive yang tahan dua kali karena memiliki lebih banyak data bisa gagal dengan? Saya kira saya tidak tahu apakah MTBF termasuk salah baca atau salah tulis, atau apakah itu berarti disk menjadi rusak secara mekanis. Adakah yang tahu jika ada standar industri yang ketat dan definisi MTBF untuk hard disk?

Kyle Brandt
sumber
1

Berikut adalah beberapa hal yang akan saya periksa: 1) Apakah nomor seri pada drive cukup dekat? Jika demikian, Anda mungkin memiliki batch yang salah 2) Bagaimana lingkungan tempat tinggal server Anda? Apakah Anda memiliki masalah dengan kegagalan perangkat keras lainnya baru-baru ini? 3) Apakah drive tersebut merupakan drive Seagate Barracuda? Ada masalah dengan drive itu. Lihat artikel computerworld ini di atasnya. 4) Apakah drive ini datang sebagai bagian dari suatu sistem? atau apakah Anda membelinya sendiri? Jika Anda membeli drive OEM, tidak ada cara untuk memastikan bahwa drive ditangani dengan hati-hati sebelum Anda membelinya.

Saya pribadi memiliki keberuntungan luar biasa dengan hard drive. Saya hanya punya dua drive gagal pada saya. Hanya satu dari kegagalan itu pada drive yang saya gunakan sebenarnya. Namun, di sekitar saya, saya telah melihat banyak orang kehilangan data pada hard drive.

cyberkni
sumber
Hmm, ya mereka semua sangat dekat, tapi mereka WD, tidak Seagates, dan ya mereka OEM drive ... beberapa hal yang saya tidak dipertimbangkan dalam sana ...
Mark Henderson
1

Tingkat kegagalan yang lebih tinggi dari drive besar hanya bisa menjadi fungsi dari ukuran drive. Drive dengan lima puluh juta sektor memiliki peluang sepuluh kali lipat memiliki sektor yang buruk daripada drive dengan lima juta sektor. Saya berasumsi tingkat kegagalan di antara drive besar dan drive kecil sama di sini, yang mungkin bukan asumsi yang baik - seperti yang orang lain katakan, fakta bahwa drive terabyte masih relatif baru, mereka mungkin memiliki tingkat kegagalan yang lebih tinggi untuk mulai dengan.

Dalam kasus Anda, itu hanya terdengar seperti kumpulan drive yang buruk.

Graeme Perrow
sumber
1

Jika Anda membeli semua drive pada waktu yang sama dari tempat yang sama, mungkin saja semuanya berasal dari satu batch yang rapuh.

Saat menyusun array RAID, saya biasanya menganjurkan sedikit mencampur drive, yaitu campuran dari produsen atau setidaknya drive dari pemasok yang berbeda (untuk mengurangi risiko semua drive menjadi dari satu batch yang buruk).

Rekomendasi lain saya akan membuat adalah dengan menggunakan drive yang lebih kecil jika memungkinkan (misalnya Anda memiliki ruang fisik untuk drive dan port controller untuk menggantung mereka off), jadi bukan volume RAID 1 atau dua drive 1TB memiliki RAID 10 dari empat unit 500GB. Dengan cara ini ketika drive memburuk Anda hanya membangun kembali array yang lebih kecil yang merupakan bagian dari array yang lebih besar bukannya membangun kembali seluruh array (mengurangi lamanya waktu selama array tidak lengkap), dan juga menawarkan sedikit lebih redundansi (dalam empat dari enam "dua drive gagal sekaligus" skenario array 4 drive RAID10 akan hidup). Anda dapat melakukan hal yang sama dengan menyisir array R5 yang lebih kecil ke dalam array R50 juga jika didukung oleh pengontrol / perangkat lunak RAID Anda.

Mungkin saya terlalu paranoid, tapi saya akan berhati-hati mempercayai 1TB data ke satu drive tunggal, bahkan jika drive itu adalah bagian dari array yang berlebihan.

Tentunya ada kendala fisik yang berperan yang mungkin membuat teknik ini tidak praktis untuk Anda, juga kendala penarikan daya, jadi YMMV. Sebagai "misalnya" ketika array atau array tidak praktis: Saya lebih suka memiliki empat drive sebagai R10 di salah satu server kami di sini di tempat drive yang lebih besar dalam array R1, tetapi secara fisik tidak memiliki ruang , membeli / membangun array eksternal berada di luar anggaran, dan kami tidak dapat menggunakan ruang pada array yang ada karena data harus disimpan secara fisik terpisah dari semua data lain karena persyaratan perlindungan data.

David Spillett
sumber
1

Seseorang melakukan penelitian yang sangat terperinci tentang masalah drive yang lebih besar ini. Ini berkaitan dengan tingkat kesalahan bit yang tetap konstan meskipun ukuran drive meningkat, ditambah semakin lama waktu yang dibutuhkan untuk membangun kembali drive yang lebih besar. Keduanya bergabung untuk menempatkan kegagalan ke-2 selama pembangunan kembali sangat banyak ke ranah realitas. Saya akan menggunakan 500 gb atau lebih kecil pada drive RAID array.

bobcov
sumber
1

Selalu gunakan hard drive berkapasitas lebih kecil untuk penggunaan produksi. Tidak pernah memeriksa fisika di belakangnya tetapi disk yang lebih kecil cenderung rusak lebih jarang. Itulah yang selalu dikatakan semua orang kepada saya.

Alakdae
sumber
0

Apakah Anda membuat array dengan disk semua dari batch yang sama dan semua dikirim dari pemasok yang sama? Saya diberitahu itu adalah hal yang buruk untuk dilakukan ...

Terima kasih
sumber
0

Pertimbangkan RAID-6. Kemungkinan kesalahan baca keras selama rekonstruksi RAID-5 itu sangat nyata. Atau RAID-Z dengan ZFS.

Brian Carlton
sumber