Mengganti Hard Drive [ditutup]

19

Saya bertanya-tanya apakah itu ide yang baik untuk mengganti hard drive di server database sistem (cukup) kritis setelah beberapa tahun penggunaan, sebelum mati.

Sebagai contoh, saya berpikir untuk mengganti hard drive setelah 3 tahun digunakan. Karena saya memiliki banyak hard drive di server, saya bisa terhuyung-huyung hard drive mana yang diganti.

Apakah ini ide yang bagus, atau apakah orang hanya menunggu kegagalan?

Garfonzo
sumber

Jawaban:

33

Google melakukan penelitian pada disk drive dan menemukan sangat sedikit korelasi antara usia dan kegagalan disk. Tes SMART juga tidak menunjukkan kegagalan.

Pengamatan lokal saya (> 500 server) serupa. Saya memiliki disk baru gagal dengan cepat sementara yang lama masih chug.

Aturan umum saya adalah jika kami melihat masalah disk (SMART atau kesalahan sistem) kami segera menggantinya. Jika tidak, maka drive akan didaur ulang ketika server melakukannya.

Google Study http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

jeffatrackaid
sumber
Ini umumnya apa yang saya pikirkan, tetapi ingin melihat apa yang orang lain lakukan. Terima kasih
Garfonzo
2
Saya setuju. Kami melihat tingkat kegagalan yang jauh lebih tinggi dengan drive SAS 2,5 "yang lebih baru daripada server 10 tahun yang menjalankan drive SCSI 9" 3,5GB!
James O'Gorman
@ JamesO'Gorman proses manufaktur berubah ... membuat saya bertanya-tanya apa yang telah dilakukan pada drive baru sebagai bagian dari beberapa rekayasa "trade-off".
Avery Payne
1
Microsoft Technet juga memiliki artikel tentang Fault Tolerance yang menyentuh secara singkat pada hard drive / kerusakan komponen mekanis ( technet.microsoft.com/en-us/library/bb742464.aspx ) - Mereka berbicara sedikit tentang "kurva bathtub" yang mekanik kegagalan komponen cenderung mengikuti.
voretaq7
@AveryPayne Re drive baru, perhatikan bahwa drive 2,5 "memiliki toleransi JAUH lebih ketat - Akibatnya apa yang dulunya merupakan" slop mekanis "yang dapat diterima" pada drive 3,5 "dapat menyebabkan kegagalan besar pada drive 2,5". Lihat juga artikel TechNet Saya mengaitkan tentang kurva bathtub - Komponen mekanik menderita kematian bayi yang tinggi secara umum, dan kemudian relatif stabil hingga akhirnya mati karena "usia tua". Drive 2,5 "masih berada di wilayah" kematian bayi "- menurut pengalaman saya selama di Setidaknya 1 tahun beroperasi.
voretaq7
13

Tidak.

Salah satu masalah terbesar dengan mengganti hard drive pada server produksi aktif adalah melakukan hal itu akan memicu pembangunan kembali. Terutama jika Anda menggunakan RAID5, dan terutama jika Anda menggunakan drive besar, memaksa membangun kembali menciptakan risiko yang sangat signifikan dari kegagalan yang tidak dapat dipulihkan. Risiko kehilangan array selama pembangunan kembali jauh lebih besar daripada risiko yang terlibat dalam meninggalkan drive berusia 3 tahun di tempat.

Mengambil contoh ekstrem, jika Anda berturut-turut mengganti setiap disk dalam array RAID5 6-disk yang terdiri dari disk 2TB, risiko teoretis Anda dari kesalahan baca yang tidak dapat dipulihkan selama salah satu pembangunan kembali adalah di lingkungan 58% (menurut matematika serbet saya; tolong lakukan sendiri dan bandingkan catatan). Dengan kata lain: penggantian disk "preventif" Anda, pada dasarnya, tidak lain adalah tindakan sabotase.

Satu-satunya waktu ketika saya akan mempertimbangkan menyegarkan drive di server lama adalah dalam proses "perbaikan" itu, misalnya setelah dinon-aktifkan dari satu tugas dan sebelum meletakkannya kembali ke layanan dengan peran baru. Bahkan pada saat itu, persyaratan kapasitas dan kinerja akan jauh lebih penting daripada usia drive.

Skyhawk
sumber
1
+1 untuk memicu pembangunan kembali
gregmac
Bisakah Anda jelaskan mengapa risikonya 58%? Jika disk dipatroli secara teratur mengapa itu akan lebih menekankan pemulihan?
Mircea Vutcovici
@ MirceaVutcovici karena dalam pengaturan RAID-5, semua drive akan terus aktif selama pembangunan kembali vs pencarian acak sesekali di sini atau di sana. Dengan kata lain, "memuat" pada semua drive naik, dan dengan melakukan itu, risiko Anda memicu drive ke-2 yang gagal juga naik.
Avery Payne
@Setiap Payne Saya tahu Anda lebih menekankan disk saat membangun kembali. Saya mencoba untuk memahami mengapa membangun kembali akan menekankan disk lebih dari sekadar pemeriksaan konsistensi.
Mircea Vutcovici
@ MirceaVutcovici Angka yang tepat (dan bagaimana melakukan matematika) masih bisa diperdebatkan, tetapi intinya adalah Anda harus membaca 10 terabyte data enam kali , tanpa manfaat disk paritas untuk memperbaiki kesalahan baca, untuk melakukan enam membangun kembali. Probabilitas membaca 60 terabyte data, tanpa kesalahan sama sekali, tidak menguntungkan Anda.
Skyhawk
3

Saya belum melihatnya. Kami menjaga server dalam garansi sampai mereka keluar dari produksi - 5 tahun. RAID 5 standar memungkinkan Anda selamat dari kegagalan disk sehingga kami hanya menyimpan beberapa drive agar kami dapat segera memulai pembangunan kembali dan pada server kritis, kami menyertakan hotspare atau menjalankan RAID 10.

Jika Anda melihat beberapa drive gagal baru-baru ini di server Anda mungkin memiliki masalah backplane. Bisa jadi getaran atau debu baru juga dari konstruksi di dekatnya.

Paul Ackerman
sumber
Ini tidak sepenuhnya benar. jika sejumlah besar disk Anda berasal dari lot yang sama, Anda menjalankan risiko kegagalan simultan yang jauh lebih tinggi ketika Anda menambahkan tekanan membangun kembali. Seperti dicatat dalam jawaban lain, ukuran ARRA5 yang semakin besar menjalankan probabilitas URE yang meningkat selama pembangunan kembali yang membawa array Anda di bawah ambang validitas raid5.
Magellan