Apa yang dianggap sebagai array serangan 5 'besar'?

11

Masalah baru-baru ini dengan NAS Buffalo TeraStation di sini di kantor saya telah membuat saya menyelidiki Raid 5.

Saya telah menemukan beberapa artikel yang berbeda berbicara tentang ketidakmampuan menggunakan raid 5 dalam array besar, atau dengan disk besar

Berikut adalah satu contoh artikel yang berbicara tentang masalah dengan membangun kembali array dengan drive konsumen besar.

Saya mencoba mencari tahu apa yang dianggap sebagai 'besar'?

NAS yang kami miliki di sini adalah pengaturan 4 drive Raid 5, setiap drive adalah 1 TB. Drive gagal dan telah diganti, array sedang dibangun kembali.

Apakah pengaturan ini termasuk besar, dalam hal kemungkinan akan mengalami masalah selama pembangunan kembali?

Seberapa andal pengaturan ini untuk penggunaan sehari-hari?

rampok
sumber
2
Mengingat beban sistem Anda yang biasa, berapa lama pengontrol mengharapkan pembangunan kembali? Apakah MTBF dari HDD itu? Satu Anda memiliki dua angka, Anda tahu peluang kegagalan kedua - dan bencana - selama RAID membangun kembali. Ingatlah bahwa HDD paling ditekan selama pembangunan kembali, sehingga hasil di atas akan meremehkan kemungkinan kegagalan ganda.
MadHatter
3
Selain itu, Anda tahu bahwa RAID tidak cadangan, bukan?
cjc
5
@ cjc, apakah Anda menambahkan mutiara ke setiap pertanyaan RAID di SF, atau melakukan sesuatu tentang ini membuat Anda berpikir OP berpikir bahwa RAID adalah cadangan?
BlueCompute
Ya, saya tahu itu. Ini semua didukung, saya baru saja ingin kerumitan harus mengembalikan semuanya karena array raid tidak memperbaiki dirinya dengan benar.
Rob

Jawaban:

18

Merancang keandalan array disk:

  1. Temukan Tingkat URE dari drive Anda (pabrikan tidak suka membicarakan tentang kegagalan drive mereka, jadi Anda mungkin harus menggali untuk menemukan ini. Seharusnya 1/10 ^ X di mana X umumnya sekitar 12-18).
  2. Putuskan berapa tingkat risiko yang dapat diterima untuk kebutuhan penyimpanan Anda †. Biasanya ini adalah <0,5% kemungkinan kegagalan, tetapi bisa beberapa persen dalam penyimpanan "awal", dan bisa <0,1 untuk data penting.
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    Untuk array dengan lebih dari satu disk paritas atau mirror dengan lebih dari sepasang disk di mirror, ubah 1setelah Drives in Array ke jumlah disk dengan parity / mirror.

Jadi saya punya satu set empat drive WD Green 1TB dalam sebuah array. Mereka memiliki Tingkat URE 1/10 ^ 14. Dan saya menggunakannya sebagai penyimpanan awal. 1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%risiko kegagalan membangun kembali array setelah satu drive mati. Ini bagus untuk menyimpan sampah saya, tapi saya tidak meletakkan data penting di sana.

† Menentukan kegagalan yang dapat diterima adalah proses yang panjang dan rumit. Dapat diringkas sebagai Budget = Risk * Cost. Jadi jika kegagalan akan menelan biaya $ 100, dan memiliki peluang 10% untuk terjadi, maka Anda harus memiliki anggaran $ 10 untuk mencegahnya. Ini sangat menyederhanakan tugas menentukan risiko, biaya berbagai kegagalan, dan sifat teknik pencegahan potensial - tetapi Anda mendapatkan idenya. [Data Drives] = [Total Drives] - [Parity Drives]. Cermin disk dua (RAID1) dan RAID5 memiliki 1 drive paritas. Tiga disk mirror (RAID1) dan RAID6 memiliki 2 drive paritas. Dimungkinkan untuk memiliki lebih banyak paritas drive dengan RAID1 dan / atau skema khusus, tetapi tidak khas.


Namun persamaan statistik ini datang dengan peringatan itu:

  • Tingkat URE itu adalah tingkat yang diiklankan dan umumnya lebih baik di sebagian besar drive yang keluar dari jalur perakitan. Anda mungkin beruntung dan membeli drive yang pesanan besarnya lebih baik dari yang diiklankan. Demikian pula Anda bisa mendapatkan dorongan yang mati karena kematian bayi.
  • Beberapa jalur produksi memiliki proses yang buruk (di mana banyak disk dalam proses gagal pada saat yang sama), sehingga mendapatkan disk dari batch produksi yang berbeda membantu untuk mendistribusikan kemungkinan kegagalan secara bersamaan.
  • Disk yang lebih tua lebih mungkin mati di bawah tekanan pembangunan kembali.
  • Faktor lingkungan mengambil korban:
    • Disk yang bersiklus panas biasanya lebih cenderung mati (mis. Menghidupkan / mematikannya secara teratur).
    • Getaran dapat menyebabkan semua jenis masalah - lihat video di YouTube tentang berteriak pada array disk .
  • "Ada tiga jenis kebohongan: kebohongan, kebohongan terkutuk, dan statistik" - Benjamin Disraeli
Chris S
sumber
Drive yang saya ambil / keluarkan dari perangkat ini adalah drive Samsung HD103SI 1TB. Saya percaya tiga drive yang tersisa adalah sama. Drive pengganti berasal dari pabrikan yang berbeda, saya tidak punya detailnya.
Rob
Tampaknya tingkat untuk drive ini adalah 1/10
Rob
1
Saya baru saja mengoreksi persamaan, contohnya benar, sekarang mereka berdua. Array Anda adalah 1-(1-1099511627776*0.000000000000001)^3=> 0,00329. Anda memiliki braket di bagian luar di ^3mana seharusnya berada di bagian dalam; dan harus ada satu lagi nol dalam 1/10 ^ 15 hal itu.
Chris S
2
Drive 1TB adalah 1000000000000 byte sehingga bekerja sedikit kurang dari 3% | 0,3% tergantung pada Tingkat URE Anda.
user9517
1
@IanRingrose Ini valid secara statistik. Saya sudah membahas masalah spesifik Anda. Apakah Anda memiliki sesuatu yang relevan untuk ditambahkan selain apa yang telah dinyatakan?
Chris S
9

Alasan artikel itu ada adalah untuk menarik perhatian pada Tingkat Kesalahan Bit yang Tidak Dapat Dipulihkan pada HDD. Khususnya, disk 'PC rumahan' yang murah. Mereka biasanya memiliki spesifikasi pabrik 1/10 ^ 14. Ini adalah sekitar 12,5TB data, yang jika Anda melakukan RAID-5 dengan disk 2TB ... Anda menekan cukup cepat.

Ini berarti Anda harus:

  • gunakan grup RAID yang lebih kecil, dan terima ruang terbuang yang lebih tinggi.
  • Gunakan RAID-6 dan terima hukuman tulis tambahan. (50% lebih tinggi dari RAID5)
  • Beli disk yang lebih mahal - 'kelas server' memiliki spesifikasi UBER 1/10 ^ 16, yang berarti ini adalah titik diperdebatkan. (1.2PB lebih baik dari 12.5TB)

Saya biasanya menyarankan bahwa RAID-6 adalah cara maju secara umum, tetapi akan dikenakan biaya kinerja.

Sobrique
sumber