Haruskah saya 'menjalankan' satu disk pasangan RAID 1 baru untuk mengurangi kemungkinan waktu kegagalan yang sama?

19

Saya sedang menyiapkan array RAID1 dari dua hard drive 4TB baru.

Saya pernah mendengar di suatu tempat sebelumnya, bahwa membuat array RAID1 dari hard drive identik baru yang dibeli pada saat yang sama, meningkatkan kemungkinan bahwa mereka akan gagal pada saat yang sama.

Oleh karena itu saya mempertimbangkan untuk menggunakan salah satu hard drive untuk jangka waktu tertentu (mungkin beberapa minggu) sendiri, dalam upaya untuk mengurangi kemungkinan keduanya gagal dalam waktu singkat. (drive yang tidak digunakan akan tetap terputus di laci)

Apakah ini tampak seperti pendekatan yang masuk akal, atau apakah saya lebih cenderung membuang-buang waktu?

raid hardware-raid raid1 drive-failure a_henderson
sumber

2

Ini adalah klaim yang sering terdengar, tetapi saya belum melihat dokumentasi yang mendukungnya. Risiko yang jauh lebih nyata adalah, bahwa salah satu disk Anda dapat mengembangkan beberapa sektor buruk, yang tidak diperhatikan untuk sementara waktu. Tapi begitu disk lain gagal, Anda akan melihat sektor-sektor buruk itu selama membangun kembali.

kasperd

8

Jika Anda bekerja dengan lusinan drive, mungkin ada baiknya mempertimbangkan mencari dari beberapa batch. Untuk dua set drive, tidak perlu repot untuk melakukan ini. Tingkat kegagalan tidak sama atau dapat diprediksi ... satu bisa bertahan 3 bulan, yang lain bisa bertahan 5 tahun.

jlehtinen

Saya pribadi tidak akan menyerbu hanya dengan dua drive. Menggunakan lebih banyak drive memberikan kapasitas yang lebih baik. Misalnya, 3 drive akan menghasilkan 8 TB total penyimpanan, tidak seperti 2 drive, hanya memberikan 4 TB. Setiap drive dapat gagal dalam set tiga, dan jika mereka berasal dari tiga sumber, kemungkinan kegagalan pada saat yang sama rendah.

phyrfox

3

@ phyrfox - RAID-5 (dan -6) memiliki karakteristik kinerja yang berbeda dari RAID-1 yang mungkin tidak kompatibel dengan aplikasinya. Dengan drive besar (terutama drive kualitas konsumen), jika saya akan menggunakan level RAID yang lebih tinggi, saya pasti akan menggunakan RAID-6 untuk melindungi terhadap kegagalan disk kedua saat membangun kembali array setelah kegagalan disk tunggal. Saya telah menjalankan 5 disk RAID-6 array selama 2 tahun menggunakan satu set drive yang dibeli pada saat yang sama - satu disk gagal sebulan, sisanya tidak menunjukkan masalah.

Johnny

1

@phyrfox RAID5 akan mengurangi biaya per megabyte tetapi sebenarnya akan MENINGKATKAN peluang mengalami kegagalan karena ada lebih banyak drive yang gagal.

Caltor

16

Buang-buang waktu.

Anda tidak akan dapat menyebabkan kegagalan atau menekankan drive dengan cara yang bermakna. Anda memiliki RAID, dan itu awal yang baik. Pastikan Anda memiliki pemantauan di tempat untuk benar-benar mendeteksi kegagalan saat terjadi dan cadangan untuk melindungi terhadap bencana.

putih
sumber

2

Setuju untuk HDS konvensional, tetapi untuk SSD kisahnya sangat berbeda. Pikir ini layak dicatat sekarang sebelum SSD 4tb menjadi murah dan tersedia dan pembaca tidak menyadari kita sedang berbicara tentang berputar karat di sini, tapi mungkin saat itu mereka akan menangani lebih banyak menulis.

symcbean

3

Ya - tentu saja semua drive 'perusahaan' sudah akan diuji untuk bisa melewati kegagalan awal kehidupan pada kurva bathtub. Meskipun saya tahu jika Anda membeli sepasang generator, sarannya adalah mengganti 66% menjadi 33%, karena dengan begitu keduanya tidak aus secara bersamaan. Dengan drive sekalipun, MTBF memiliki standar deviasi yang cukup besar, sehingga jauh lebih sedikit menjadi perhatian.

Sobrique

5

Mungkin lebih baik menggunakan merek atau seri disk yang berbeda bersama-sama jika Anda khawatir tentang hal ini.

Saya telah melihat disk dengan tipe dan umur yang sama gagal dalam kelompok, jadi IMHO ini bukan pinjaman perkotaan.

Wurtel
sumber

1

Saya juga, tapi sudah turun ke firmware cerdik daripada apa pun yang terkait MTBF.

Sobrique

2

Pertanyaan Hebat - Namun, tidak seperti lampu mobil, ini buang-buang waktu. Peringkat MTBF [rata-rata waktu antara kegagalan] untuk 4 GB drive [WD Red dalam contoh ini] adalah 1.000.000 jam. Kemungkinan dua drive menjadi buruk di cermin pada saat yang sama sangat jarang terjadi. Ketika saya melihat ini terjadi, itu karena drive pertama gagal tanpa ada yang memperhatikan. Lebih berguna untuk dilindungi dengan cadangan daripada mengganggu pembakaran dalam satu drive terlebih dahulu. Jika Anda mencampur jenis drive, pastikan drive memiliki kecepatan yang sama. Jika Anda paranoid, maka RAID 10 cocok untuk Anda.

DocB
sumber

MTBF berasumsi bahwa disk-disk tersebut independen, yang tidak berada dalam set RAID yang sama. Ada alasan lain bahwa ini adalah buang-buang waktu, tetapi angka konyol yang dikeluarkan oleh pabrikan yang memiliki korelasi lemah dengan kenyataan bukanlah salah satunya.

HopelessN00b

5

Jika HDD benar-benar memiliki waktu rata-rata yang dinyatakan di antara kegagalan, lalu mengapa masa garansi sangat singkat? 1M jam adalah 114 tahun, memberi atau menerima. WD Red Pro (karena saya mengambil satu dari banyak) tampaknya datang dengan garansi lima tahun. Bahkan jika Anda mengambil setengah waktu rata-rata untuk gagal, Western Digital masih tidak percaya itu akan dapat diandalkan untuk lebih dari sekitar sepersepuluh dari periode MTBF yang dinyatakan. Sekarang, mana yang lebih cenderung Anda percayai; beberapa statistik acak tanpa kewajiban, atau di mana uang itu sebenarnya? (Pengembalian garansi, pengembalian uang, perbaikan dan penggantian biaya uang nyata.)

CVn

1

@ MichaelKjörling: Jika mereka menjamin MTBF, mereka akan mengganti lebih dari 50% (ya, ekor yang terlalu panjang pada distribusi) dari drive dalam garansi. Tentu Anda harus melihat di mana uang itu, tetapi saya tidak melihat alasan untuk percaya bahwa MTBF bukan urutan besarnya lebih lama dari garansi, dan beberapa percaya bahwa itu.

Ben Voigt

@ MichaelKjörling Saya telah melihat perangkat keras dengan MTBF yang diterbitkan 100k jam yang secara konsisten akan aus setelah 1k jam operasi. Generasi berikutnya dari perangkat keras memiliki MTBF yang diterbitkan sebanyak 200k jam. Ketika batch pertama dari perangkat keras baru telah beroperasi selama 48 jam, lebih dari 50% di antaranya telah gagal.

kasperd

1

Meskipun secara teori masuk akal, data tidak mendukung kebutuhan work indrive Anda.
Tidak hanya akan beberapa minggu tidak benar-benar berdampak, persentase kegagalan tidak benar-benar berfungsi ketika hanya melihat dua drive.

Sementara ada beberapa indikasi tingkat kegagalan yang lebih normal ketika datang ke drive dari model yang sama.

Sebagian besar hasil terkait usia dipengaruhi oleh drive vintages ... Menariknya, ini tidak mengubah kesimpulan kami. Berbeda dengan hasil yang berkaitan dengan usia, kami mencatat bahwa semua hasil yang ditunjukkan dalam makalah ini tidak dipengaruhi secara signifikan oleh campuran populasi. (penekanan milikku)

Dengan demikian, kegagalan terkait usia, yang hanya sebagian kecil dari kegagalan, dapat dikorelasikan dengan drive vintages. Tetapi mayoritas kegagalan tidak bisa.
Jika Anda menambahkan ini persentase kegagalan keseluruhan, yang dapat memuncak pada 8% untuk tahun tertentu, kemungkinan kedua drive gagal pada tahun yang sama kecil, mereka gagal pada minggu yang sama diabaikan.
Dan ini adalah jika Anda melihat setiap kemungkinan penyebab kegagalan, bukan hanya kegagalan terkait usia.

Jika Anda ingin meminimalkan risiko, tetapi dua drive dari vintage yang berbeda.
Jika Anda menginginkan jaminan, belilah asuransi.
Dan seperti jawaban ewwhite sudah katakan, backup dan pemantauan adalah suatu keharusan.

Reaces
sumber

0

Ini biasanya argumen untuk SSD lebih dari HDD dalam pengalaman saya. SSD memiliki siklus tulis yang terbatas, oleh karena itu jika Anda menggunakan RAID1 dengan dua SSD dengan model yang sama, keduanya harus kehabisan siklus tulis dalam waktu yang bersamaan.

Adapun kegagalan umum, kecuali jika Anda memiliki masalah serius seperti getaran massa, statis, atau panas tinggi; Saya tidak curiga Anda akan melihat 2 dari 2 drive gagal secara bersamaan.

Perhatian utama dengan RAID1 (dan RAID10) dengan drive yang lebih besar seperti 4TB adalah pembangunan kembali. Dengan cermin 2 drive, ketika satu drive gagal, drive yang lain kemudian membawa beban kerja dua kali lipat. Kemudian ketika Anda membangun kembali, drive itu mendapatkan lebih banyak beban. Jika ada yang salah dengan drive itu, kemungkinan akan gagal dalam kondisi tersebut terutama mengingat membangun kembali cermin 4TB yang membutuhkan waktu lama.

Devon
sumber

0

Anda bisa melakukannya, tetapi itu tidak akan banyak membantu.

Misalnya, jika ada jarum pada daya input, jarum yang sama akan membunuh kedua disk.

Yang penting: Anda harus memiliki cadangan yang baik. Raid tidak menggantikan cadangan yang bagus. Sebenarnya, jika Anda memiliki cadangan yang baik, mungkin serangan mirroring tidak diperlukan (jika Anda dapat mentolerir runtuhnya sistem sekitar 2-3 tahun sekali).

peterh mengatakan mengembalikan Monica
sumber

3

RAID adalah tentang ketersediaan, bukan tentang membuat cadangan data. Intinya adalah untuk menjaga sistem tetap tersedia jika drive gagal, bukan untuk melindungi data pada drive.

HopelessN00b

@ HopelessN00b Inilah yang saya coba jelaskan dalam jawabannya, mungkin saya tidak cukup jelas?

peterh mengatakan mengembalikan Monica

Kalimat Anda di ujung sana membuat air kental.

HopelessN00b

@ HopelessN00b Raid juga melindungi dari kehilangan data yang disebabkan oleh kegagalan disk. Ini sering mengarah pada kesimpulan yang salah, bahwa itu dapat digunakan sebagai cadangan. Tetapi menggunakan raid, dan menggunakan backup, ini adalah hal-hal yang tergantung situasi. Ada beberapa kasus, di mana bahkan lingkungan sysadm profesional tidak membutuhkan keduanya. Menurut pendapat saya, tujuannya bukan untuk memaksa keduanya ke sysadm yang tidak berpengalaman, tetapi untuk membuatnya jelas, bahwa mirroring disk dan membuat cadangan data adalah solusi yang berbeda untuk masalah yang berbeda.

peterh mengatakan mengembalikan Monica

Haruskah saya 'menjalankan' satu disk pasangan RAID 1 baru untuk mengurangi kemungkinan waktu kegagalan yang sama?

Jawaban: