Di mana Anda menemukan data MTBF Anda?

9

Berarti waktu antara kegagalan mungkin sulit untuk ditafsirkan, tetapi ada banyak metode statistik yang dapat Anda gunakan jika Anda memiliki beberapa data yang sulit.

Masalahnya adalah, tidak ada yang melaporkan nomor MTBF mereka lagi. (Selain produsen hard drive.)

Di mana Anda pergi untuk mencari data MTBF untuk komponen dan server?


sumber
Saya ingin tahu bagaimana Anda menggunakan data MTBF.
dr.pooter

Jawaban:

2

Mengapa MTBF tidak masalah

Waktu rata-rata antara jumlah kegagalan tidak sepenting tingkat kesalahan yang tidak dapat diperbaiki. Penawaran MTBF dengan kegagalan lengkap bagian, baca drive. Namun angka itu tidak ada artinya ketika sedikit kesalahan akan menyebabkan kepanikan RAID 5 dan membawa cadangan panas ke dalam bermain.

Sementara MTBF untuk drive tingkat profesional dan konsumen telah meningkat dengan urutan besarnya dalam beberapa tahun terakhir, tingkat kesalahan yang tidak dapat diperbaiki tetap relatif konstan. Tingkat ini diperkirakan 10 ^ 14 bit, jadi satu bit per 12 terabyte dibaca, untuk drive SATA konsumen, sumber .

Mengapa Anda harus kehilangan tidur di atas RAID 5 array Anda

Jadi, itu hanya 6 lintasan dari drive 2TB yang baru. Berapa lama untuk membaca data 12Tb? Waktu yang jauh lebih sedikit daripada MTBF untuk drive itu.

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/

Yang lebih memprihatinkan adalah kemungkinan kegagalan baca ganda pada array RAID 5 yang terdiri dari drive yang besar. Dengan drive 7 1Tb RAID 5 array, kemungkinan kegagalan membaca kedua saat melakukan RAID membangun kembali, adalah 50%.

http://blogs.zdnet.com/storage/?p=162

Dave Cheney
sumber
Anda selalu bisa menggunakan RAID6 mungkin?
Chopper3
3
Jawaban yang bagus, tetapi hanya mencakup hard drive
Mark Henderson
@ Chopper3, ya RAID6 memang memperbaiki situasi, tetapi begitu Anda telah mendedikasikan dua disk untuk paritas, dan sepertiga untuk cadangan panas, kemudian pada array 7 drive, Anda mendapatkan cukup dekat dengan ruang yang sama dengan array RAID10.
Dave Cheney
Saya mencari data lebih dari sekadar hard drive. Seluruh server masih gagal dari waktu ke waktu, jadi ada baiknya mengukur seberapa sering.
1

Sangat memalukan bahwa orang berpikir bahwa Angka MTBF tidak berlaku untuk sistem yang kompleks. Masalah sebenarnya (afaik) adalah bahwa produsen tidak memiliki angka MTBF untuk modul perangkat keras mereka. Ini adalah angka yang seharusnya tersedia. Dell mengatakan "Dell tidak lagi mencantumkan MTBF spesifik untuk server mereka." sebenarnya mengerikan! Mereka mungkin juga berkata "Yah barang-barang kami benar-benar tidak cukup dapat diandalkan untuk digunakan di mana angka MTBF diperlukan".

Insinyur keandalan (atau pria yang memakai topi RE) seharusnya membatasi ruang lingkup studi ketersediaan. Ini sering terbatas pada modul perangkat keras.

Adapun klasifikasi apa yang merupakan kegagalan ... Nah itu sebabnya kami melakukan analisis FMECA.

Tentu sistemnya kompleks, dan mode kegagalan termasuk kegagalan perangkat lunak, tetapi itu sering kali bukan ruang lingkup penelitian. Kami ingin Angka MTBF untuk perangkat keras. Minta salesman Anda untuk menyediakan ini. Ini adalah tanggung jawab teknis mereka untuk memberikannya kepada Anda ... Jika mereka menolak atau melangkah, pergi ke suatu tempat yang memiliki server kelas telekomunikasi dengan angka ketersediaan yang dimandatkan untuk perangkat keras.

Peter
sumber
Masalah ketika vendor harus menerbitkan MTBF adalah mereka harus mempublikasikannya lebih cepat daripada mengumpulkan data nyata. Karenanya mereka perlu memproduksi MTBF melalui semacam ekstrapolasi. Kadang-kadang itu bisa jauh. Kasus terburuk yang pernah saya lihat adalah lebih dari tiga kali lipat.
kasperd
0

Saya telah melihat MTBF dilaporkan di situs dukungan perusahaan. Bicaralah dengan tenaga penjualan Anda atau SE untuk mendapatkan informasi.

pcapademic
sumber
0

Dalam pandangan saya, angka MTBF telah menjadi alat penjualan. Perangkat keras modern telah mencapai keadaan di mana angka MTBF pada dasarnya tidak berguna. Bahkan yang terendah dari vendor low-ball adalah memproduksi perangkat keras yang hidup lebih lama dari siklus upgrade yang masuk akal. Seperti yang Anda perhatikan, tidak ada yang melaporkan nomor MTBF. Saya percaya ini alasannya.

dr.pooter
sumber
Namun, beberapa server masih lebih dapat diandalkan daripada yang lain. Kita perlu menjawab pertanyaan seperti "apakah pasokan listrik kedua sepadan?" Untuk itu kami membutuhkan data. Idealnya, itu akan menjadi statistik kegagalan nyata yang dilaporkan pada populasi perangkat sejenis. Kami menggunakan MTBF sebagai proxy yang lemah untuk distribusi aktual itu.
Cukup adil. Di dunia kecil saya, gagasan redundansi adalah bagian yang diharapkan dari proses tersebut. Untuk contoh lain, lihat sebagian besar penyedia hosting berskala besar, atau google. Saya masih menyarankan bahwa mengingat status komoditas server wintel, ini adalah masalah yang memudar. Jika Anda berbicara tentang z-series atau yang serupa, persamaan dan harapannya jauh berbeda.
dr.pooter
0

Sayangnya, MTBF bukan pengukuran praktis atau dapat diandalkan di server modern. Semua konsep MTBF adalah bahwa jika model / konfigurasi tertentu digunakan oleh banyak orang dalam waktu lama, kita mungkin dapat mengetahui keandalannya.

Saat ini, kebanyakan dari kita dengan senang hati berdagang potensi keandalan ekstra untuk kinerja ekstra yang terbukti dan efisiensi daya. Misalnya, apakah Anda akan membangun server baru di perangkat keras berusia 18-24 bulan hanya karena terbukti keandalannya? atau hanya pergi dengan generasi terakhir dari CPU dengan core lebih banyak, tenaga kuda dan efisiensi daya?

Juga, tidak seperti sistem teleponi jadul, sistem cukup dikustomisasi, dan tentu saja, sangat bergantung pada perangkat lunak. Seberapa andalkah versi BIOS x.xx atau versi driver y.yyy? Apakah tambalan server OS / DB / app terbaru meningkatkan stabilitas atau apakah ada kemunduran stabilitas? Berapa banyak server di dunia yang benar-benar menggunakan campuran persis yang sama dari versi perangkat keras / tumpukan seperti Anda?

Jika Anda membutuhkan ketersediaan tinggi, Anda tetap perlu menambahkan redundansi ke sistem Anda (dual-everything, clustering, hot spares, DRP, apa pun yang Anda miliki). Jadi, keandalan relatif dari masing-masing komponen perangkat keras biasanya bukan faktor yang signifikan, karena Anda membangun infrastruktur untuk bertahan dari kegagalan komponen tunggal. Hiduplah dengan ketidakpastian (keandalan bersifat retroaktif) dan rencanakan dengan tepat.

Ofir Manor
sumber
Masalah konfigurasi yang terus berubah adalah masalah nyata. Itu membuatnya sulit untuk membangun tubuh pengalaman dengan titik konfigurasi tunggal. Namun demikian, jika Anda berencana untuk HA, bahkan dengan konfigurasi yang berlebihan, Anda harus memiliki beberapa gagasan tentang keandalan masing-masing perangkat.
Sepertinya tidak ada harapan bagi IT untuk menjadi ilmu pengetahuan. Kami terus bekerja pada asumsi, tidak ada data keras, dan pemborosan sumber daya. Lebih seperti ilmu hitam dari apa pun akhir-akhir ini. Rekayasa tampaknya merupakan tujuan yang jauh.
Giovanni Tirloni
0

Saya setuju dengan sebagian besar jawaban lain: Nomor MTBF tidak berguna bagi saya dan saya tidak pernah memeriksanya.

Satu-satunya pengecualian adalah hard drive, tetapi bahkan di sana, saya hanya melihat MTBF dengan cara yang sangat kasar, memastikan untuk membeli drive "kelas server" yang lebih andal jika ada pilihan.

Ward - Reinstate Monica
sumber