Dapatkah pengaturan disk RAID 4 macet jika hanya 1 hard disk gagal? [Tutup]

9

Saya seorang pengembang web. Saya tidak punya banyak pengalaman dalam perangkat keras. Untuk alasan ini, saya menggunakan server yang dikelola.

Pagi ini, salah satu drive dalam pengaturan kami gagal. Namun, situs lengkap turun. Saya bertanya kepada host web saya apa yang terjadi dan dia menjawab bahwa hard disk gagal sedemikian rupa sehingga pengontrol RAID tidak dapat berfungsi dengan baik. Array diatur sebagai RAID 4.

Apakah kalian pernah melihat itu sebelumnya? Apa itu mungkin?

Terima kasih atas bantuan kalian. Saya perlu tahu apakah host web saya jujur ​​kepada saya.

Steve Rodrigue
sumber
Jika lebih dari satu disk dalam Array mati maka RAID akan gagal (meskipun tergantung pada pengaturan RAID).
Rhys Evans
Singkatnya, penyedia Anda adalah ****** dan bekerja di sisi yang murah. Itu bisa sangat diterima asalkan Anda sebagai pelanggan telah diperingatkan bahwa infrastrukturnya tidak toleran terhadap kegagalan drive.
Luke404
Harap perbarui pertanyaan dengan jenis serangan (yaitu serangan 0,1,4,5,6, dll).
Trevor Boyd Smith

Jawaban:

22

Kemungkinan besar penyedia Anda menggunakan Hard Drive yang tidak dimaksudkan untuk digunakan dalam RAID. Drive SATA konsumen normal termasuk dalam kategori ini.

Masalah yang mungkin terjadi adalah bahwa drive mulai mengalami Kesalahan Baca yang Tidak Dapat Dikoreksi (URE). Ketika ini terjadi di drive konsumen, drive duduk di sana dan mencoba kembali operasi baca (biasanya selama 30-60 detik) sampai menyerah. RAID akan menunggu drive melaporkan kesalahan (30-60) detik. Jadi permintaan sederhana untuk beberapa sektor dapat dengan mudah menyebabkan server terhenti sementara drive yang gagal bekerja melalui operasi read-retry tersebut.

Drive yang dimaksudkan untuk Array RAID memiliki Time Limited Error Recovery (untuk drive SATA). TLER melaporkan kegagalan kembali ke pengontrol dengan cepat, sehingga pengontrol dapat secara cerdas merespons kegagalan tersebut (sebagian besar secara cerdas; semoga). SCSI (SAS juga) bekerja agak berbeda. Set perintah SCSI memungkinkan pengontrol untuk menentukan berbagai batas upaya pemulihan pada drive (MODE SELECT: RW ERR RECOVERY). Kontroler RAID harus mengatur drive agar gagal dengan cepat, controller kemudian dapat menguji apakah drive berpikir bahwa itu berfungsi dengan baik dengan perintah TUR, gagal drive keluar dari array jika ada kondisi pemeriksaan.

Chris S
sumber
Penjelasan yang bagus.
sbrattla
11

Ya, ini mungkin, bahkan dalam skenario di mana Anda akan berpikir array seharusnya selamat dari kegagalan.

Beberapa kemungkinan mengapa array gagal:

  • Lebih banyak drive gagal daripada yang bisa dipertahankan oleh mode RAID. Sebagai contoh:
    • RAID 0 (striping) tidak dapat bertahan dari kegagalan drive.
    • RAID 1 dapat bertahan dari kegagalan semua kecuali 1 drive.
    • RAID 4/5 dapat bertahan 1 kegagalan drive.
    • RAID 6 dapat bertahan 2 kegagalan drive.
    • RAID 10 dapat bertahan dari kegagalan hingga 50% dari drive, tergantung pada drive mana yang gagal.
  • Bug dalam perangkat lunak RAID atau firmware pengontrol.
  • Kesalahan pengguna.
    • Seseorang menarik terlalu banyak drive.
    • Seseorang menarik drive dan tidak pernah menggantinya, dan drive lain kemudian gagal.
    • Array tidak dipantau, memungkinkan lebih banyak drive gagal daripada yang bisa selamat.
  • Pengontrol murah dengan drive tingkat konsumen umumnya diketahui gagal bahkan dalam skenario yang dapat bertahan.
    • Drive tingkat konsumen akan berusaha hampir tanpa batas waktu untuk membaca sektor yang buruk sampai mendapat pembacaan yang baik. Kontroler yang murah akan menunggu hampir tanpa batas waktu untuk drive seperti itu untuk mengembalikan hasil. Menunggu bisa sangat lama sehingga sistem operasi menyerah. Kemudian saat reboot drive tidak merespon cukup cepat ke controller dan array diasumsikan gagal.
    • Di sisi lain, drive level perusahaan akan menyerah dengan cepat, memungkinkan pengontrol untuk menarik data dari drive lain. Juga, pengontrol yang baik akan menandai drive yang membutuhkan waktu terlalu lama untuk merespons sebagai gagal dan melanjutkan.
leher panjang
sumber
1
RAID 1 harus selamat dari kematian semua kecuali salah satu drive dalam array. Memang, kebanyakan orang mungkin menjalankan setup RAID 1 dua-drive, yang berarti bahwa itu hanya dapat bertahan dari kematian satu drive, tetapi itu tidak melekat pada RAID 1.
CVn
Menarik jadi jika 1 disk dalam RAID 10 gagal Anda harus memecah disk lain karena tidak akan bertahan jika hanya satu disk rusak :-) Saya pikir Anda harus mengedit posting Anda.
FLY
@ MichaelKjörling poin bagus. Saya mengedit posting saya.
longneck
@ BENAR-BENAR kau benar, aku menutupi titik itu. diedit.
longneck
RAID4 haruslah RAID3. RAID3 adalah byte striping dengan parity; RAID4 adalah implementasi ECC yang membutuhkan sejumlah besar drive yang AFAIK tidak pernah diimplementasikan.
Dan Is Fiddling By Firelight
8

Jika itu adalah implementasi RAID 0 maka tentu saja ketika satu drive gagal Anda akan kehilangan array dan semua data dengan itu.

joeqwerty
sumber
Ini adalah implementasi RAID 4
Steve Rodrigue
11
hahaha - Anda hampir membawa saya ke sana, apa itu sebenarnya?
Chopper3
3
@ Chopper3 NetApp menggunakan RAID4. Jadi itu tidak sepenuhnya tidak pernah terdengar, meskipun itu membuat saya tertawa juga. Mungkin itulah cara tuan rumah mengatakan mereka memiliki NetApp Filer atau apalah.
HopelessN00b
1
@SteveRodrigue Apakah Anda yakin itu RAID 4?
MDMarra
1
Jika memang RAID4 dan hanya 1 drive yang gagal, maka mungkin untuk menginstal drive baru dan membangun kembali array, pada prinsipnya setidaknya. Mungkin host web berarti bahwa salah satu drive yang tersisa gagal saat dia mencoba melakukan ini?
user3490
2

Saya telah melihat bug firmware mengeluarkan seluruh RAID ketika disk rusak, atau ketika mulai melaporkan kegagalan yang akan terjadi. Maaf, tidak ada yang spesifik untuk Anda tunjukkan, tapi ya, itu bisa terjadi. Bukan sebagai bagian dari spesifikasi RAID, tentu saja, itu pasti bug.

chutz
sumber
1

Iya itu mungkin. Itu tidak seharusnya terjadi, tetapi tentu saja bisa. Masukkan URE (Kesalahan Baca yang Tidak Dapat Dipulihkan) dan kesalahan pengontrol dan bug firmware dan sejenisnya.

Tanpa informasi tambahan (yang mungkin tidak akan diberikan oleh tuan rumah Anda), tidak mungkin untuk mengatakan dengan pasti satu atau lain cara, tetapi siapa pun yang bekerja dengan banyak array RAID telah memiliki pengalaman di mana seluruh array hilang atau hancur ketika seharusnya tidak.

(Dan, omong-omong, RAID4 bukan tingkat RAID yang sangat umum digunakan, tetapi harus menahan hilangnya drive apa pun . Namun, tidak berarti selalu akan seperti itu.)

HopelessN00b
sumber
1

Saya mengalami banyak kegagalan HDD di mana tidak ada mekanik yang gagal, tetapi elektronik yang membentuk antarmuka komunikasi. Karena ukurannya yang kecil, banyak komponen elektronik yang sangat sensitif bahkan terhadap penyimpangan listrik kecil sekalipun (ini dapat terjadi ketika motor ber-AC besar di dekatnya dihidupkan / dimatikan, dll. Dan catu daya sedikit di sisi yang murah).

Ketika konverter atau kapasitor daya internal drive (buffer penyimpanan energi) membakar sinyal listrik yang dihasilkan pada konektor eksternal HDD dapat dan akan keluar dari spesifikasi. Karena drive terhubung ke pengontrol melalui kabel tembaga, dan seringkali di server banyak drive berbagi koneksi kabel untuk memudahkan instalasi dan mengurangi kekacauan, ini dapat dengan mudah mengganggu atau bahkan secara permanen menghancurkan sejumlah komponen yang berdekatan.

Ini tidak ada hubungannya dengan penetapan harga. Memang benar bahwa pengontrol dan drive yang mahal MUNGKIN menggunakan bagian-bagian yang lebih toleran terhadap kondisi abnormal atau memiliki pelindung yang lebih baik, dan bahwa dengan komponen anggaran Anda lebih mungkin mendapatkan bagian yang di bawah standar. Tapi saya secara teratur menemukan kapasitor identik pada drive $ 50 dan drive $ 500. Dan jika HDD yang gagal secara langsung mengarahkan 12 Volt dari catu daya ke konektor SATA karena sesuatu yang korsleting, pengontrol RAID Anda akan hangus, tidak peduli berapa banyak angka yang ada pada label harga.

Bukan itu yang biasanya terjadi, tapi jelas bukan pengalaman saya yang tidak pernah terdengar.

Jost
sumber
"sering di server banyak drive berbagi koneksi kabel" Tidak di lingkungan SAS atau SATA modern. Secara astronomis sangat tidak mungkin bahwa skenario Anda adalah yang terjadi di sini; Saya tidak berpikir saya pernah mendengar elektronik drive sekarat dan mengambil komponen lain dengannya. Sementara 12v pasti akan menggoreng pengontrol SATA atau SAS, komponen logiknya sangat jarang terhubung ke 12v dengan cara apa pun, karena mengurangi tegangan dari 12 ke 3,3 atau kurang sangat rumit dibandingkan dengan sumber 5v atau 3.3v. Saya ingin tahu di mana Anda mungkin memiliki kepala hal semacam ini terjadi; apakah Anda bersedia berbagi?
Chris S
1

Ya, saya kira seluruh serangan bisa gagal setelah kegagalan drive tunggal. Drive gagal pertama akan diambil offline oleh pengontrol dan serangan itu akan tetap bekerja dengan baik. Tetapi ketika drive yang gagal diganti, controller mulai membangun kembali serangan itu. Jika ada masalah baca laten yang tidak ditemukan di salah satu drive yang tersisa lainnya, pembangunan kembali drive yang gagal dapat menyebabkan lebih banyak drive menjadi offline (ketika masalah baca ditemukan saat membangun kembali serangan) lagi yang menyebabkan seluruh serangan untuk gagal.

Pytagoras
sumber
Inilah sebabnya mengapa array RAID perlu digosok secara teratur, untuk menemukan masalah membaca atau menulis.
Chris S