Apakah ada alasan untuk mengubah hard drive server sebelum salah?

11

Hanya pertanyaan singkat: apakah ada alasan untuk mengubah hard drive server setelah x tahun sebelum kesalahan (akhirnya akan di beberapa titik) atau haruskah saya membiarkannya sampai kesalahan? Saya memiliki sedikit pengalaman dengan administrasi server yang sebenarnya, jadi saya ingin tahu ...

Spiros
sumber
Saya tidak berharap untuk mendapatkan begitu banyak jawaban, wow :) Setelah meninjau semuanya, dan mempertimbangkan bahwa a) Harddisk server memadai untuk keperluan itu b) Pencadangan dijamin sepenuhnya (Menggunakan RAID + Replikasi Budak + cadangan harian untuk sumber eksternal) Saya tidak menemukan alasan untuk menyarankan perubahan drive. Terima kasih semuanya!
Spiros

Jawaban:

8

Alasan bagus untuk mengubahnya adalah jika Anda ingin menambahkan tugas lain ke daftar hal-hal yang harus Anda lakukan sambil meningkatkan peluang terjadinya kesalahan.

Semua bercanda, sebenarnya tidak ada alasan saya pernah mendengar untuk mengubah drive sebelumnya. Jika Anda memiliki RAID di tempat, Anda sudah memiliki perlindungan di tempat (dengan asumsi Anda memiliki cadangan yang layak), dan Anda tidak menghasilkan bahan limbah dalam bentuk drive mati untuk dibuang dan Anda tidak perlu bekerja sia-sia untuk menghilangkan data sensitif dari drive. Anda tidak akan menghabiskan uang ekstra untuk drive baru dan Anda masih tidak akan secara proaktif melindungi terhadap hal-hal yang masih bisa salah, seperti pengontrol drive yang salah, yang tidak umum sebagai sumber kesalahan drive tetapi dapat terjadi.

Di sisi lain, ini mungkin membantu Anda menemukan kesalahan drive yang tidak dapat dipulihkan yang tidak memicu alarm pada unit RAID, seperti yang kami alami dengan RAID 5. Kami digigit oleh ini dan akhirnya perlu untuk membangun kembali dari bare metal dari cadangan (bahkan dalam hal ini, cadangan yang tepat akan membantu Anda pulih.) Level RAID yang mempertimbangkan kapasitas drive yang lebih besar saat ini dan toleransi kesalahan yang tidak dapat dipulihkan akan membantu kami, jika tidak, cadangan menghemat hari.

Sebagian besar administrator memiliki RAID dan paket cadangan yang layak sehingga tidak perlu lagi menghasilkan pemborosan dengan mengganti drive secara tidak perlu.

Bart Silverstrim
sumber
6

Satu-satunya waktu saya mungkin mempertimbangkan ini adalah jika saya memiliki banyak disk dari batch yang sama, dan yang lain dalam batch sudah mulai gagal, maka saya mungkin mempertimbangkannya.

Jika saya ketat di ruang angkasa, maka tentu saja, saya akan melakukannya - tetapi tanpa alasan lain selain hanya karena semakin tua? Tidak, karena rata-rata tingkat kegagalan pada tahun pertama mirip dengan tingkat kegagalan pada tahun-tahun lainnya . (perhatikan bahwa grafik pecah pada tahun pertama selama 3 bulan, 6 bulan, 1 tahun, tetapi Anda harus menambahkannya bersama-sama untuk mendapatkan peluang kegagalan pada 1 tahun). Dan ketika melihat pemanfaatan disk yang tinggi, itu lebih cenderung gagal pada tahun pertama dibandingkan dalam tiga tahun ke depan digabungkan.

Satu-satunya korelasi dengan kegagalan drive terlambat adalah di kamar yang lebih panas, dan kami menjaga kamar server kami tetap dingin.

Joe H.
sumber
5

Saya semua proaktif, tetapi saya belum pernah melakukannya dan belum pernah mendengar ada yang melakukannya. Agaknya Anda memiliki beberapa jenis pengaturan RAID dan memiliki cadangan yang valid dan teratur untuk sistem yang dipertanyakan.

joeqwerty
sumber
5
+1, Tidak pernah mempertimbangkannya. Mengganti disk, berjaga-jaga, dan dengan sengaja memicu pembangunan kembali array sepertinya bukan cara terbaik untuk "melatih" disk produksi yang tersisa. Lebih sulit untuk menjelaskan kepada bos mengapa sistem mati jika pembangunan kembali gagal.
jscott
3
Saya mengganti disk yang memiliki kesalahan SMART, tapi saya akan menganggap mereka gagal, bahkan jika mereka masih berfungsi secara teknis.
Chris S
4

Ya, kinerja dan kapasitas. Jika hard drive lama tidak dapat membaca 70MB / detik dan 100 IOPS dan potensi penggantiannya adalah 200MB / detik terus membaca dan 175 IOPS dan juga memiliki 3 kali kapasitas Anda mungkin dibenarkan untuk membeli drive baru dan menukar yang lama dengan yang baru hanya untuk alasan kinerja / kapasitas. (dan angka-angka itu benar-benar dibuat-buat, intinya lebih baru bisa jauh lebih cepat).

Sekarang apa yang Anda lakukan dengan drive lama. Anda dapat menggunakannya di server pengujian, atau menambahkannya ke cadangan ke disk array, atau menyimpannya sebagai cadangan darurat. Atau Anda mungkin hanya menghapusnya dan mengirimnya untuk dibuang.

Server rata-rata Anda sekarang adalah IO terikat lebih dari itu terikat prosesor (atau setidaknya semua milik saya). Jadi jika Anda memiliki server yang benar-benar tua yang tidak memiliki masalah dengan waktu CPU atau kekurangan Memori Anda mungkin memiliki ruang untuk secara signifikan meningkatkan kinerja dengan mengganti hard drive yang beberapa generasi di belakang apa yang dapat Anda beli dengan mudah untuk menggantinya.

pplrppl
sumber
3

Itu tergantung dari dampaknya jika hard drive rusak.

Jika Anda tidak memiliki RAID
Jika Anda tidak peduli tentang ketersediaan server karena layanan dapat dihentikan atau karena ketersediaan tinggi dan jika Anda memiliki cadangan data yang berfungsi. Saya akan mengatakan Ok, biarkan drive mati dan ubah dan pulihkan data saat itu akan gagal.
Jika Anda peduli tentang ketersediaan, saya akan mengatakan menggunakan RAID;)

Jika Anda memiliki RAID (1, 5, 6, ...)
Saya akan mengatakan, mengapa mengganti hard drive sebelum kesalahan? RAID (dan cadangan) ada di sini untuk itu. Mengubah hard drive untuk berjaga-jaga jika itu bisa gagal adalah risiko untuk memecahkan sesuatu (rekonstruksi serangan selalu berisiko)

Tapi itu hanya sudut pandang saya! Jika Anda merasa drive Anda terlalu tua, Anda mungkin ingin mengubah server Anda juga.

radius
sumber
2

Beberapa disk mati dalam 1 jam, yang lain bertahan 2 dekade.

Jika tidak gagal atau gagal (sesuatu yang biasanya dapat Anda buat melalui pemantauan SMART atau masalah kinerja) maka satu-satunya alasan lain untuk membuangnya adalah jika itu tidak cukup besar atau cukup cepat untuk tujuan Anda.

Chris Thorpe
sumber
1
Cukup monitor drive dengan SMART dan biasanya akan menunjukkan tanda-tanda kegagalan sebelum terlambat.
Prof. Moriarty
@Prof. Penelitian disk massal Google menunjukkan bahwa SMART "biasanya" dapat diandalkan 44% -72% dari waktu. static.googleusercontent.com/external_content/untrusted_dlcp/…
jscott
2

Dengan disk, pertanyaannya bukan apakah mereka akan gagal, tetapi kapan . Mereka adalah alat mekanis (kecuali menggunakan SSD, tetapi mereka memiliki peringatan sendiri), sehingga mereka akan gagal, cepat atau lambat.

Vendor disk cenderung menyesuaikan proses pembuatannya semurah mungkin, karena bahkan satu sen yang disimpan per disk bisa sangat penting ketika Anda memproduksi dan menjual ribuan dari mereka; tetapi mereka tentu saja tidak ingin disk mereka gagal sebelum masa garansi berakhir, atau mereka akan menggantinya secara gratis sepanjang waktu; jadi, mereka akan dengan senang hati membelanjakan sebanyak yang diperlukan agar mereka bertahan selama garansi mencakup mereka ... tetapi tidak satu sen lagi.

Hasil akhirnya adalah: kebanyakan disk cenderung gagal segera setelah masa garansi berakhir. Ini tentu saja bukan aturan umum, ini hanya statistik, dan disk Anda bisa gagal sekarang atau bertahan hingga Anda tidak akan membutuhkannya lagi ... tetapi, secara statistik, ada banyak disk yang gagal beberapa hari atau bulan setelah mereka garansi kedaluwarsa.

Tentu saja, membeli yang baru ketika Anda masih tidak membutuhkannya bisa mahal ... tetapi menggantinya setelah garansi berakhir dan mereka gagal akan tetap mahal.

Sekarang, jika Anda dapat menemukan cara untuk membuatnya gagal sementara masih dibenarkan (dan tidak kehilangan data dalam proses, yaitu memiliki RAID DAN cadangan yang baik), well, itu akan menjadi optimal ;-)

Massimo
sumber
2

Saya tidak akan mengganti drive yang berfungsi seperti saya mengganti power supply yang berfungsi. Keduanya akhirnya akan gagal tetapi tidak masuk akal, baik secara teknis maupun finansial, untuk menggantikannya tanpa alasan yang baik. Ganti mereka ketika mereka mulai menunjukkan tanda-tanda masalah.

Dalam kasus hard drive, trennya adalah bahwa jika drive akan gagal lebih awal, kemungkinan besar akan terjadi pada tahun pertama. Drive yang telah bebas masalah selama 6 tahun biasanya dapat diandalkan untuk terus bekerja setidaknya beberapa tahun lagi. Jelas ada banyak pengecualian untuk itu tetapi ini adalah tren umum.

John Gardeniers
sumber
1
Anda (biasanya) tidak kehilangan data saat catu daya gagal ...
Massimo
1
@ Massimo - Benar, tetapi di server Anda juga biasanya tidak kehilangan data ketika satu drive gagal. Menurut pendapat saya, jika tidak ada redundansi, itu hanya workstation yang dimuliakan, bukan server nyata.
John Gardeniers
1

Juga, perlu diingat bahwa sebagian besar drive kelas server memiliki persyaratan manufaktur yang lebih ketat dan biasanya lebih dapat diandalkan daripada drive desktop berbiaya rendah / murah. Jadi, selain dari bahaya mengganti drive 'baik' jika itu mungkin gagal, melakukan ini untuk array besar dapat menambah jumlah uang yang besar.

Juga, ketika menggunakan RAID, itu sebabnya itu ide yang baik memiliki setidaknya satu cadangan panas di server, sehingga dapat dengan cepat mulai membangun kembali dan tetap sehat sampai Anda membeli penggantian pada basis yang diperlukan.

pengguna2626
sumber
1

Saya sudah melakukannya pada sistem "zero-downtime". Sungguh, Anda mungkin kehilangan drive yang berbeda ketika RAID membangun kembali ... Saya menukar satu drive sekali, lalu berakhir dengan menukar kembali ketika drive lain mulai melempar kesalahan selama pembangunan kembali.

Ini benar-benar pertanyaan filosofis: jika Anda percaya pada pengujian stres proaktif (baik susunan maupun sistem kardiovaskular Anda) maka Anda harus menukar drive Anda. Tapi sungguh, Anda tidak akan pernah tahu drive mana yang akan menjadi buruk selanjutnya. Sama sekali tidak mungkin bahwa Anda bisa kehilangan drive yang baru diganti sebelum Anda kehilangan drive yang lebih tua dan terbukti.

Yang sedang berkata, saya akan membuang waktu saya pada stress-test solusi cadangan saya, dan meninggalkan drive dalam damai sampai mereka mulai benar-benar melempar kesalahan.

Satanicpuppy
sumber