Saya telah mencari MTTF, MTBF, MTBR dan MTBF untuk mengetahui server HP Gen9 yang berjalan di lingkungan produksi kami.
Akar pertanyaan saya, harus khawatir atau tidak.
Saya sepertinya tidak bisa mendapatkan data yang bagus karena setiap server memiliki campuran perangkat keras.
Di perusahaan terakhir saya, kami menjalankan sekitar 2000 server dell r210 r410 r710 Saya akan mengatakan rata-rata kami memiliki sekitar 5 server sehari yang mengalami semacam kegagalan. Jadi sekitar 0,25% dari server rusak dan perlu bagian diganti sebelum dapat digunakan lagi.
Perusahaan terakhir saya semuanya diatur dalam pasangan HA, infrastruktur N + 2 sehingga tidak berdampak pada produksi. Kami dapat mengganti server dan terus berjalan
Di kantor saya saat ini, kami menjalankan 9 server, (HP Gen9, 56 VM Hyper-V) kami tidak menyimpan banyak suku cadang di tangan juga keluar pusat data tidak dikelola sehingga jika ada yang mati kami harus berkendara sekitar 45 menit untuk mengganti apa pun.
CTO atau manajer TI saya tampaknya khawatir, mereka telah mengalami downtime sekitar 2,5 hari tahun lalu, saya telah menambahkan bahwa kita perlu mengelompokkan server tetapi mereka tidak melihat adanya kebutuhan.
Apakah ada yang salah atau benar di sini? Tidak yakin apa yang harus dilakukan.
Saya tahu ini bukan tanggung jawab saya jika terjadi sesuatu pada CTO. Ini adalah perusahaan yang sangat kecil, hanya CTO, Manajer TI, saya sendiri (dev ops) dan 1 orang help desk.
Secara keseluruhan pengalaman dalam menjalankan lingkungan produksi, sangat terbatas, cara mengatur banyak hal yang saya sebut tingkat junior, baik CTO maupun Manajer TI saya tidak tahu banyak tentang pengelompokan sebelum saya tiba di sana. Mereka berada di tengah-tengah proyek untuk mengatur DR tanpa HA, yang saya lawan tetapi kalah.
sumber
Jawaban:
Jangan khawatir tentang angka MTTF, MTBF, MTBR, dan MTBF ... mengapa itu berlaku untuk spesifik lingkungan Anda?
Server memiliki redundansi internal dan dapat sangat stabil dalam produksi. Tetapi itu tergantung pada lingkungan Anda, susunan / komposisi disk, jenis disk, jumlah RAM, konfigurasi CPU, karakteristik termal, daya, dll.
Menggunakan beberapa bentuk ketersediaan tinggi dapat mengurangi potensi downtime dan memberi Anda tempat untuk menggeser beban kerja jika terjadi kegagalan.
Ini adalah pertanyaan risiko keuangan dan operasional.
Mungkin biaya tambahan dari standalone ke cluster cukup tinggi sehingga tidak masuk akal secara bisnis? Mungkin downtime 2,5 hari (~ ketersediaan 99,3%) cukup baik untuk operasi Anda. Anda harus fokus pada perlindungan di luar kantor dan cadangan yang baik. Semua sistem HP Gen9 Anda berada di bawah garansi produsen hari ini, jadi Anda jangan memiliki akses ke bagian-bagian. Jika Anda memiliki RAID, catu daya / kipas listrik redundan, dan daya stabil, Anda telah membahas area paling kritis.
Pikirkan ini dari perspektif keuangan dan garis besar risiko, biaya terkait, dan cobalah membuat kasus bisnis yang menarik untuk apa yang Anda inginkan.
sumber