Mencari pengalaman sebenarnya dari kegagalan drive RAID 5 2? [Tutup]

15

Saya ingin tahu apakah ada yang punya pengalaman pribadi dengan kegagalan drive RAID 5 2 dengan drive besar?

Seperti yang saya pahami, teorinya adalah bahwa dengan drive 1-2TB besar, jika satu drive gagal dalam set raid, ia perlu membangun kembali semuanya sehingga dengan demikian memukul semua drive lainnya dengan sangat keras, dan kemungkinan kegagalan lain meningkat, terutama jika drive berasal dari batch produksi yang sama. Dan jika Anda kehilangan drive lain, Anda kehilangan semua data.

Ini biasanya dijelaskan setelah pernyataan "RAID tidak cadangan" yang saya setujui.

Teori ini masuk akal, dan saya memahaminya, tetapi apakah itu benar-benar terjadi?

Brian
sumber
Sayangnya kami baru saja mendapat pertanyaan baru dengan pengalaman langsung tentang ini. :( superuser.com/questions/516844/...
Hennes

Jawaban:

15

Ya, saya pernah mengalami hal itu. Satu set 4 drive WD (tingkat konsumen) menjadi buruk selama sekitar satu minggu. Saya lambat untuk mengganti yang pertama, dan tidak membuat array offline, dan kehilangan semua data saya ketika yang kedua gagal. Saya menggunakan kembali dua yang bagus, dan salah satunya gagal dalam bulan berikutnya. Mereka semua didinginkan dan dirawat dengan baik. Saya hanya bisa mengatakan bahwa saya sekarang percaya dengan retorika "batch yang buruk".

Dalam insiden terpisah, saya memiliki 3 drive terpisah dari merek yang berbeda dan model gagal dalam waktu satu bulan dari yang lain, meskipun saya cukup yakin bahwa alasan mereka gagal adalah karena ventilasi yang tidak tepat. Jangan memasak drive Anda!

Paul McMillan
sumber
3
Sebagai akibat wajar, memiliki cadangan duduk untuk ketika drive tidak memburuk. Waspadalah terhadap korupsi diam-diam ... mudah kehilangan data pada drive yang hanya berpura-pura bekerja.
Paul McMillan
Ini adalah alasan lain bahwa Anda tidak boleh menginstal drive yang semuanya berasal dari batch yang sama dalam array RAID - drive memiliki waktu kegagalan yang berkorelasi (Anda tahu, seperti tingkat default dari sekuritas hipotek yang dijaminkan subprime mortgage).
Andrew Mao
4

Ini benar-benar terjadi pada saya, meskipun, itu bukan cara yang paling umum drive akan gagal. Saya memiliki 4 500GB sata drive eksternal dalam serangan 5. Mereka terpasang ke server rack mount IBM lama yang murah. Seluruh pengaturan terselip di bawah tangga dan suatu hari, baik tikus atau kelinci, tetapi sesuatu yang dikunyah melalui beberapa kabel listrik dan 2 drive korslet. Semua drive berada di lampiran eksternal murah jadi saya kira saya seharusnya tidak begitu terkejut.

AdamB
sumber
3

Apakah Anda bertanya apakah Anda dapat kehilangan 2 drive kembali ke belakang? Tentu, apa pun bisa terjadi. Raid 5 memungkinkan ketersediaan besar dan peningkatan kinerja untuk akses data, tetapi serangan 5 tidak mendukung apa pun. Ini hanya membantu mencegah penggunaan data Anda karena kehilangan perangkat keras satu drive. Ini bukan salinan data Anda. Anda tidak dapat memulihkan salinan lama, revisi lama, atau hanya salinan dari pekerjaan Anda saat ini. Juga, tidak melindungi terhadap korupsi data. Ada banyak hal yang bisa salah dari sekadar kehilangan drive. Virus dapat merusak semua data Anda, adik perempuan suka menonton tempat sampah di desktop Anda menjadi penuh dan kosong saat dia melempar file ke dalamnya, teman bodoh menjatuhkan soda ke mesin Anda, dll.

Juga, ingat, Anda bisa kehilangan pengontrol serangan hard drive. Dan Anda tidak bisa hanya memindahkan array ke pengontrol acak lainnya. Anda biasanya harus menggunakan yang sama persis dan tetap saja, ada yang salah. Beberapa pengendali serangan menyimpan informasi di papan tulis dan lainnya mengirim info konfigurasi ke array yang dilampirkan. Ini adalah pertaruhan ketika situasi ini muncul.

Pertanyaan yang sama di SF: /server/2888/why-is-raid-not-not-a-backup

Perlu lebih banyak alasan?

EDIT: Gagasan Anda benar dan dapat terjadi pada siapa pun. Saya pribadi belum melihat lebih dari satu drive gagal, tetapi saya telah melihat beberapa mati sangat dekat bersama. Tak satu pun dari mereka berada di jendela pembangunan kembali itu, tetapi secara teknis berisiko. Tetapi, Anda memiliki cadangan jika terjadi sesuatu, bukan? ha ha. Beberapa orang kadang-kadang belajar dengan cara yang sulit. Raid 6 membawanya ke level berikutnya dengan dual parity dan dapat kehilangan hingga 2 drive. Dengan pengaturan serangan apa pun, kemungkinan kegagalan meningkat seiring dengan ukuran (# drive) dan kompleksitas array. Lebih banyak drive = lebih banyak poin kemungkinan kegagalan

Troggy
sumber
maaf, saya mengerti semua itu, hanya bertanya apakah itu terjadi pada siapa saja dan apa skenarionya?
Brian
3

Anda benar, dalam skenario RAID-5 jika Anda kehilangan satu disk dan kemudian membangun kembali, sistem harus berhasil membaca setiap sektor dari semua drive yang masih hidup dalam set RAID. NetApp mengklaim bahwa untuk beberapa situasi (mereka dapat melakukan set RAID hingga 28 drive dari beberapa jenis) peluang Anda untuk mengalami kegagalan kedua bisa mencapai satu dari sepuluh. Jadi mereka melakukan "Dual-Parity" yang saya percaya terkait dengan RAID-6.

Jelas semakin banyak drive yang Anda miliki di set RAID, dan semakin besar, semakin besar kemungkinan Anda terkena masalah. Untuk set RAID kecil (3-5 disk) kemungkinan kemungkinan belum bergeser terlalu jauh terhadap penggunaan RAID-5.

Tapi saya selalu melakukan Raid-DP di NetApps di mana saya bisa.

David Mackintosh
sumber
+1 Saya tidak pernah memikirkan fakta "harus berhasil membaca setiap sektor dari semua drive yang masih hidup".
AaronLS
2

Tidak pribadi pengalaman , tetapi saya telah mendengarkan jeritan orang-orang yang pernah mengalami hal itu pada mereka. Sistem penyimpanan apa pun - baik itu drive tunggal, kunci USB, pita, instalasi RAID besar, atau Amazon S3 - pada akhirnya akan gagal dengan cara apa pun yang paling tidak nyaman bagi Anda. Kegagalan kedua saat membangun kembali set RAID 5 hanyalah salah satu cara ini bisa terjadi.

Sebagai tambahan, dukungan untuk triple-parity RAID telah diintegrasikan ke dalam OpenSolaris beberapa hari yang lalu - jadi setidaknya satu vendor berpikir bahwa membiarkan dua kegagalan tambahan selama pembangunan kembali RAID paritas sebanding dengan upaya rekayasa.

Stephen Veiss
sumber
1

Ini memang benar-benar terjadi. Inilah sebabnya mengapa solusi penyimpanan NetApp memiliki implementasi RAID 6. Ini hanya untuk berjaga-jaga jika Anda kehilangan drive kedua selama pembangunan kembali.

Anda dapat menghitung kemungkinan kegagalan menggunakan rumus standar yang tercantum pada teks tautan halaman berikut Saat Anda menskala ke jumlah yang lebih besar dan lebih besar dari drive data, kemungkinan kegagalan seperti itu naik. Jika Anda memiliki cukup disk, Anda bisa mendorong nomor ini ke zona khawatir jika Anda menggunakan RAID 5 dengan volume data yang sangat besar.

Saya dapat memberi tahu Anda dari pengalaman pribadi bahwa Anda pasti dapat mengalami dua kegagalan drive dalam array yang sama dalam jangka waktu kritis yang sama. Raid 6 menyelamatkan saya dari keharusan mengembalikan dari cadangan.

Semoga ini membantu

Axxmasterr
sumber
1

Berikut ini sebuah skenario: Sebuah drive gagal pada array RAID5 Anda, tetapi cadangan Anda sudah duduk, atau pesanan untuk hard drive baru akhirnya datang. Anda (atau antek jarak jauh mungkin) pergi dengan drive baru di tangan untuk mengganti yang salah. Karena pelabelan yang buruk, kelelahan atau hanya kebodohan, salah satu drive bagus yang tersisa dikeluarkan bukan yang salah ... dan ada kegagalan kedua Anda.

camster342
sumber
1

Saya telah melihat ini beberapa kali karena saya dalam bisnis pemulihan data. Dan ya mereka sering gagal pada saat yang sama, namun saya tidak percaya ini ada hubungannya dengan ketika mereka dibangun tentu, karena saya juga telah melihat itu terjadi dengan drive yang tidak cocok. Paling sering jenis kegagalan ini terjadi tak lama setelah badai petir, lonjakan listrik, atau pemadaman listrik.

Biasanya lonjakan merusak drive atau pengontrol RAID, dan dalam beberapa hari mereka mulai gagal. Saya sebenarnya sedang bekerja sekarang untuk memulihkan array yang memiliki dua drive gagal secara bersamaan setelah pemadaman listrik. (terlihat putus asa sekarang)

Sedikit tip: Surge pelindung tidak benar-benar melindungi peralatan Anda. Selalu sambungkan serangan Anda 5 ke UPS yang bagus. Saya belum pernah melihat ini terjadi ketika array pada UPS.

Jared
sumber
1

Secara tidak sengaja menarik drive baik kedua dari set paritas tunggal tidak boleh merusak array dengan implementasi RAID yang baik. Saya tahu bahwa ZFS RAID-Z hanya akan membekukan I / O pada array sampai Anda online lagi.

Sfynx
sumber
0

Skenario lain: Antek jarak jauh diperintahkan untuk mengambil kaset cadangan dari tapedrive. Dia pergi ke rak dan tidak menarik kaset keluar dari tapedrive ... tetapi 2 (dua) HDD keluar dari jalan masuk pada saat yang bersamaan dan voila: 2 drive drive failure.

Anda pikir ini terlalu mengada-ada? Yah saya di pelanggan sekarang yang melakukan hal itu dan sekarang melihat server membangun kembali.

Bagus, dia tidak membakar kaset yang sebenarnya ada di tapedrive atau yang lainnya ;-)

Mathias
sumber