Hanya pertanyaan singkat: apakah ada alasan untuk mengubah hard drive server setelah x tahun sebelum kesalahan (akhirnya akan di beberapa titik) atau haruskah saya membiarkannya sampai kesalahan? Saya memiliki sedikit pengalaman dengan administrasi server yang sebenarnya, jadi saya ingin tahu ...
hard-drive
hardware
Spiros
sumber
sumber
Jawaban:
Alasan bagus untuk mengubahnya adalah jika Anda ingin menambahkan tugas lain ke daftar hal-hal yang harus Anda lakukan sambil meningkatkan peluang terjadinya kesalahan.
Semua bercanda, sebenarnya tidak ada alasan saya pernah mendengar untuk mengubah drive sebelumnya. Jika Anda memiliki RAID di tempat, Anda sudah memiliki perlindungan di tempat (dengan asumsi Anda memiliki cadangan yang layak), dan Anda tidak menghasilkan bahan limbah dalam bentuk drive mati untuk dibuang dan Anda tidak perlu bekerja sia-sia untuk menghilangkan data sensitif dari drive. Anda tidak akan menghabiskan uang ekstra untuk drive baru dan Anda masih tidak akan secara proaktif melindungi terhadap hal-hal yang masih bisa salah, seperti pengontrol drive yang salah, yang tidak umum sebagai sumber kesalahan drive tetapi dapat terjadi.
Di sisi lain, ini mungkin membantu Anda menemukan kesalahan drive yang tidak dapat dipulihkan yang tidak memicu alarm pada unit RAID, seperti yang kami alami dengan RAID 5. Kami digigit oleh ini dan akhirnya perlu untuk membangun kembali dari bare metal dari cadangan (bahkan dalam hal ini, cadangan yang tepat akan membantu Anda pulih.) Level RAID yang mempertimbangkan kapasitas drive yang lebih besar saat ini dan toleransi kesalahan yang tidak dapat dipulihkan akan membantu kami, jika tidak, cadangan menghemat hari.
Sebagian besar administrator memiliki RAID dan paket cadangan yang layak sehingga tidak perlu lagi menghasilkan pemborosan dengan mengganti drive secara tidak perlu.
sumber
Satu-satunya waktu saya mungkin mempertimbangkan ini adalah jika saya memiliki banyak disk dari batch yang sama, dan yang lain dalam batch sudah mulai gagal, maka saya mungkin mempertimbangkannya.
Jika saya ketat di ruang angkasa, maka tentu saja, saya akan melakukannya - tetapi tanpa alasan lain selain hanya karena semakin tua? Tidak, karena rata-rata tingkat kegagalan pada tahun pertama mirip dengan tingkat kegagalan pada tahun-tahun lainnya . (perhatikan bahwa grafik pecah pada tahun pertama selama 3 bulan, 6 bulan, 1 tahun, tetapi Anda harus menambahkannya bersama-sama untuk mendapatkan peluang kegagalan pada 1 tahun). Dan ketika melihat pemanfaatan disk yang tinggi, itu lebih cenderung gagal pada tahun pertama dibandingkan dalam tiga tahun ke depan digabungkan.
Satu-satunya korelasi dengan kegagalan drive terlambat adalah di kamar yang lebih panas, dan kami menjaga kamar server kami tetap dingin.
sumber
Saya semua proaktif, tetapi saya belum pernah melakukannya dan belum pernah mendengar ada yang melakukannya. Agaknya Anda memiliki beberapa jenis pengaturan RAID dan memiliki cadangan yang valid dan teratur untuk sistem yang dipertanyakan.
sumber
Ya, kinerja dan kapasitas. Jika hard drive lama tidak dapat membaca 70MB / detik dan 100 IOPS dan potensi penggantiannya adalah 200MB / detik terus membaca dan 175 IOPS dan juga memiliki 3 kali kapasitas Anda mungkin dibenarkan untuk membeli drive baru dan menukar yang lama dengan yang baru hanya untuk alasan kinerja / kapasitas. (dan angka-angka itu benar-benar dibuat-buat, intinya lebih baru bisa jauh lebih cepat).
Sekarang apa yang Anda lakukan dengan drive lama. Anda dapat menggunakannya di server pengujian, atau menambahkannya ke cadangan ke disk array, atau menyimpannya sebagai cadangan darurat. Atau Anda mungkin hanya menghapusnya dan mengirimnya untuk dibuang.
Server rata-rata Anda sekarang adalah IO terikat lebih dari itu terikat prosesor (atau setidaknya semua milik saya). Jadi jika Anda memiliki server yang benar-benar tua yang tidak memiliki masalah dengan waktu CPU atau kekurangan Memori Anda mungkin memiliki ruang untuk secara signifikan meningkatkan kinerja dengan mengganti hard drive yang beberapa generasi di belakang apa yang dapat Anda beli dengan mudah untuk menggantinya.
sumber
Itu tergantung dari dampaknya jika hard drive rusak.
Jika Anda tidak memiliki RAID
Jika Anda tidak peduli tentang ketersediaan server karena layanan dapat dihentikan atau karena ketersediaan tinggi dan jika Anda memiliki cadangan data yang berfungsi. Saya akan mengatakan Ok, biarkan drive mati dan ubah dan pulihkan data saat itu akan gagal.
Jika Anda peduli tentang ketersediaan, saya akan mengatakan menggunakan RAID;)
Jika Anda memiliki RAID (1, 5, 6, ...)
Saya akan mengatakan, mengapa mengganti hard drive sebelum kesalahan? RAID (dan cadangan) ada di sini untuk itu. Mengubah hard drive untuk berjaga-jaga jika itu bisa gagal adalah risiko untuk memecahkan sesuatu (rekonstruksi serangan selalu berisiko)
Tapi itu hanya sudut pandang saya! Jika Anda merasa drive Anda terlalu tua, Anda mungkin ingin mengubah server Anda juga.
sumber
Beberapa disk mati dalam 1 jam, yang lain bertahan 2 dekade.
Jika tidak gagal atau gagal (sesuatu yang biasanya dapat Anda buat melalui pemantauan SMART atau masalah kinerja) maka satu-satunya alasan lain untuk membuangnya adalah jika itu tidak cukup besar atau cukup cepat untuk tujuan Anda.
sumber
Dengan disk, pertanyaannya bukan apakah mereka akan gagal, tetapi kapan . Mereka adalah alat mekanis (kecuali menggunakan SSD, tetapi mereka memiliki peringatan sendiri), sehingga mereka akan gagal, cepat atau lambat.
Vendor disk cenderung menyesuaikan proses pembuatannya semurah mungkin, karena bahkan satu sen yang disimpan per disk bisa sangat penting ketika Anda memproduksi dan menjual ribuan dari mereka; tetapi mereka tentu saja tidak ingin disk mereka gagal sebelum masa garansi berakhir, atau mereka akan menggantinya secara gratis sepanjang waktu; jadi, mereka akan dengan senang hati membelanjakan sebanyak yang diperlukan agar mereka bertahan selama garansi mencakup mereka ... tetapi tidak satu sen lagi.
Hasil akhirnya adalah: kebanyakan disk cenderung gagal segera setelah masa garansi berakhir. Ini tentu saja bukan aturan umum, ini hanya statistik, dan disk Anda bisa gagal sekarang atau bertahan hingga Anda tidak akan membutuhkannya lagi ... tetapi, secara statistik, ada banyak disk yang gagal beberapa hari atau bulan setelah mereka garansi kedaluwarsa.
Tentu saja, membeli yang baru ketika Anda masih tidak membutuhkannya bisa mahal ... tetapi menggantinya setelah garansi berakhir dan mereka gagal akan tetap mahal.
Sekarang, jika Anda dapat menemukan cara untuk membuatnya gagal sementara masih dibenarkan (dan tidak kehilangan data dalam proses, yaitu memiliki RAID DAN cadangan yang baik), well, itu akan menjadi optimal ;-)
sumber
Saya tidak akan mengganti drive yang berfungsi seperti saya mengganti power supply yang berfungsi. Keduanya akhirnya akan gagal tetapi tidak masuk akal, baik secara teknis maupun finansial, untuk menggantikannya tanpa alasan yang baik. Ganti mereka ketika mereka mulai menunjukkan tanda-tanda masalah.
Dalam kasus hard drive, trennya adalah bahwa jika drive akan gagal lebih awal, kemungkinan besar akan terjadi pada tahun pertama. Drive yang telah bebas masalah selama 6 tahun biasanya dapat diandalkan untuk terus bekerja setidaknya beberapa tahun lagi. Jelas ada banyak pengecualian untuk itu tetapi ini adalah tren umum.
sumber
Juga, perlu diingat bahwa sebagian besar drive kelas server memiliki persyaratan manufaktur yang lebih ketat dan biasanya lebih dapat diandalkan daripada drive desktop berbiaya rendah / murah. Jadi, selain dari bahaya mengganti drive 'baik' jika itu mungkin gagal, melakukan ini untuk array besar dapat menambah jumlah uang yang besar.
Juga, ketika menggunakan RAID, itu sebabnya itu ide yang baik memiliki setidaknya satu cadangan panas di server, sehingga dapat dengan cepat mulai membangun kembali dan tetap sehat sampai Anda membeli penggantian pada basis yang diperlukan.
sumber
Saya sudah melakukannya pada sistem "zero-downtime". Sungguh, Anda mungkin kehilangan drive yang berbeda ketika RAID membangun kembali ... Saya menukar satu drive sekali, lalu berakhir dengan menukar kembali ketika drive lain mulai melempar kesalahan selama pembangunan kembali.
Ini benar-benar pertanyaan filosofis: jika Anda percaya pada pengujian stres proaktif (baik susunan maupun sistem kardiovaskular Anda) maka Anda harus menukar drive Anda. Tapi sungguh, Anda tidak akan pernah tahu drive mana yang akan menjadi buruk selanjutnya. Sama sekali tidak mungkin bahwa Anda bisa kehilangan drive yang baru diganti sebelum Anda kehilangan drive yang lebih tua dan terbukti.
Yang sedang berkata, saya akan membuang waktu saya pada stress-test solusi cadangan saya, dan meninggalkan drive dalam damai sampai mereka mulai benar-benar melempar kesalahan.
sumber