Saya seorang pengembang web. Saya tidak punya banyak pengalaman dalam perangkat keras. Untuk alasan ini, saya menggunakan server yang dikelola.
Pagi ini, salah satu drive dalam pengaturan kami gagal. Namun, situs lengkap turun. Saya bertanya kepada host web saya apa yang terjadi dan dia menjawab bahwa hard disk gagal sedemikian rupa sehingga pengontrol RAID tidak dapat berfungsi dengan baik. Array diatur sebagai RAID 4.
Apakah kalian pernah melihat itu sebelumnya? Apa itu mungkin?
Terima kasih atas bantuan kalian. Saya perlu tahu apakah host web saya jujur kepada saya.
Jawaban:
Kemungkinan besar penyedia Anda menggunakan Hard Drive yang tidak dimaksudkan untuk digunakan dalam RAID. Drive SATA konsumen normal termasuk dalam kategori ini.
Masalah yang mungkin terjadi adalah bahwa drive mulai mengalami Kesalahan Baca yang Tidak Dapat Dikoreksi (URE). Ketika ini terjadi di drive konsumen, drive duduk di sana dan mencoba kembali operasi baca (biasanya selama 30-60 detik) sampai menyerah. RAID akan menunggu drive melaporkan kesalahan (30-60) detik. Jadi permintaan sederhana untuk beberapa sektor dapat dengan mudah menyebabkan server terhenti sementara drive yang gagal bekerja melalui operasi read-retry tersebut.
Drive yang dimaksudkan untuk Array RAID memiliki Time Limited Error Recovery (untuk drive SATA). TLER melaporkan kegagalan kembali ke pengontrol dengan cepat, sehingga pengontrol dapat secara cerdas merespons kegagalan tersebut (sebagian besar secara cerdas; semoga). SCSI (SAS juga) bekerja agak berbeda. Set perintah SCSI memungkinkan pengontrol untuk menentukan berbagai batas upaya pemulihan pada drive (MODE SELECT: RW ERR RECOVERY). Kontroler RAID harus mengatur drive agar gagal dengan cepat, controller kemudian dapat menguji apakah drive berpikir bahwa itu berfungsi dengan baik dengan perintah TUR, gagal drive keluar dari array jika ada kondisi pemeriksaan.
sumber
Ya, ini mungkin, bahkan dalam skenario di mana Anda akan berpikir array seharusnya selamat dari kegagalan.
Beberapa kemungkinan mengapa array gagal:
sumber
Jika itu adalah implementasi RAID 0 maka tentu saja ketika satu drive gagal Anda akan kehilangan array dan semua data dengan itu.
sumber
Saya telah melihat bug firmware mengeluarkan seluruh RAID ketika disk rusak, atau ketika mulai melaporkan kegagalan yang akan terjadi. Maaf, tidak ada yang spesifik untuk Anda tunjukkan, tapi ya, itu bisa terjadi. Bukan sebagai bagian dari spesifikasi RAID, tentu saja, itu pasti bug.
sumber
Iya itu mungkin. Itu tidak seharusnya terjadi, tetapi tentu saja bisa. Masukkan URE (Kesalahan Baca yang Tidak Dapat Dipulihkan) dan kesalahan pengontrol dan bug firmware dan sejenisnya.
Tanpa informasi tambahan (yang mungkin tidak akan diberikan oleh tuan rumah Anda), tidak mungkin untuk mengatakan dengan pasti satu atau lain cara, tetapi siapa pun yang bekerja dengan banyak array RAID telah memiliki pengalaman di mana seluruh array hilang atau hancur ketika seharusnya tidak.
(Dan, omong-omong, RAID4 bukan tingkat RAID yang sangat umum digunakan, tetapi harus menahan hilangnya drive apa pun . Namun, tidak berarti selalu akan seperti itu.)
sumber
Saya mengalami banyak kegagalan HDD di mana tidak ada mekanik yang gagal, tetapi elektronik yang membentuk antarmuka komunikasi. Karena ukurannya yang kecil, banyak komponen elektronik yang sangat sensitif bahkan terhadap penyimpangan listrik kecil sekalipun (ini dapat terjadi ketika motor ber-AC besar di dekatnya dihidupkan / dimatikan, dll. Dan catu daya sedikit di sisi yang murah).
Ketika konverter atau kapasitor daya internal drive (buffer penyimpanan energi) membakar sinyal listrik yang dihasilkan pada konektor eksternal HDD dapat dan akan keluar dari spesifikasi. Karena drive terhubung ke pengontrol melalui kabel tembaga, dan seringkali di server banyak drive berbagi koneksi kabel untuk memudahkan instalasi dan mengurangi kekacauan, ini dapat dengan mudah mengganggu atau bahkan secara permanen menghancurkan sejumlah komponen yang berdekatan.
Ini tidak ada hubungannya dengan penetapan harga. Memang benar bahwa pengontrol dan drive yang mahal MUNGKIN menggunakan bagian-bagian yang lebih toleran terhadap kondisi abnormal atau memiliki pelindung yang lebih baik, dan bahwa dengan komponen anggaran Anda lebih mungkin mendapatkan bagian yang di bawah standar. Tapi saya secara teratur menemukan kapasitor identik pada drive $ 50 dan drive $ 500. Dan jika HDD yang gagal secara langsung mengarahkan 12 Volt dari catu daya ke konektor SATA karena sesuatu yang korsleting, pengontrol RAID Anda akan hangus, tidak peduli berapa banyak angka yang ada pada label harga.
Bukan itu yang biasanya terjadi, tapi jelas bukan pengalaman saya yang tidak pernah terdengar.
sumber
Ya, saya kira seluruh serangan bisa gagal setelah kegagalan drive tunggal. Drive gagal pertama akan diambil offline oleh pengontrol dan serangan itu akan tetap bekerja dengan baik. Tetapi ketika drive yang gagal diganti, controller mulai membangun kembali serangan itu. Jika ada masalah baca laten yang tidak ditemukan di salah satu drive yang tersisa lainnya, pembangunan kembali drive yang gagal dapat menyebabkan lebih banyak drive menjadi offline (ketika masalah baca ditemukan saat membangun kembali serangan) lagi yang menyebabkan seluruh serangan untuk gagal.
sumber