Mean Time to Failure (MTTF): Ketika produsen disk memposting ini, bagaimana Anda menafsirkan angka-angkanya?

10

Mean Time to Failure (MTTF) biasanya diberikan dalam hitungan jam, dan dengan melakukan beberapa perhitungan, tampaknya disk akan gagal hanya setelah beberapa tahun berlalu.

Tampaknya disk perlu diperbaiki lebih sering dari itu. Adakah yang tahu mengapa demikian?

Saya pikir ada sesuatu yang mencurigakan tentang metrik ini. Apakah menafsirkan sesuatu yang salah di sini?

hard-drive hardware-failure statistics hard-drive-failure Kaitlyn Mcmordie
sumber

14

Pertama:

MTTF = Mean Time To Failure
MTTR = Mean Time To Repair
MTBF = Mean Time Between Failures = MTTF + MTTR

MTBF sering kurang lebih sama dengan MTTF, karena perbaikan mungkin memakan waktu satu jam, dan MTTF mungkin puluhan ribu jam. Tetapi juga MTBF sering tidak berlaku, karena produk yang rusak tidak diperbaiki, tetapi diganti saja, karena biaya perbaikan lebih dari penggantian.

Penghitungan MTTF adalah metode statistik kompleks yang melibatkan penghitungan peluang kegagalan setiap bagian. Dan itu bukan hal yang linier seperti yang terkadang disangka orang. Jika Anda memiliki MTTF 1.000.000 jam, itu tidak berarti bahwa dalam 1.000 perangkat akan ada satu kegagalan setelah 1000 jam, atau bahwa Anda akan mengalami kegagalan pada 1.000.000 perangkat setelah 1 jam.
Banyak perangkat elektronik mengikuti "kurva bak mandi" ,

masukkan deskripsi gambar di sini

di mana ada banyak kegagalan sejak awal, maka waktu yang lama dengan hampir tidak ada kegagalan, dan menjelang akhir hidup jumlah kegagalan meningkat lagi. Dalam hard disk ada juga beberapa bagian mekanis yang memiliki kurva kegagalan yang lebih linier; ini perlahan-lahan landai dari hari 1.

Jika pabrikan mengatakan misalnya 1.000.000 jam MTTF (itu paling sering POH, atau Power-On Hours) itu berarti bahwa rata - rata drive harus bertahan> 100 tahun. Beberapa drive akan bertahan lebih lama, beberapa akan gagal sebelumnya. Jadi meskipun 1000 000 jam itu sangat mungkin untuk mengalami kegagalan setelah 1000 jam. Saya pernah mengalami kegagalan drive dalam waktu seminggu, dan kemudian Anda harus memikirkan kembali kurva bak mandi. Drive pengganti telah berputar dengan gembira selama> 50k jam.

stevenvh
sumber

3

Beberapa hal yang perlu diperhatikan mungkin fakta bahwa kegagalan awal sering disebut burn-in. Produsen yang memiliki kegagalan awal yang jauh lebih rendah sering menjalankan perangkat melalui fase burn-in mereka. Juga bahwa elektronik murni tidak menunjukkan periode aus dan hanya terbakar.

Kortuk

1

Perhatikan bahwa ketika Anda menghitung MTTF (atau MTBF), Anda biasanya menggunakan hanya satu distribusi untuk memodelkan kegagalan. Oleh karena itu perhitungannya didasarkan pada distribusi "mortalitas bayi", "kehidupan normal", atau distribusi "akhir masa pakai". Satu-satunya hal yang membedakan ketiga distribusi ini adalah parameter bentuk Weibull, jika Anda menggunakan Weibull sebagai distribusi dasar Anda. Satu-satunya kasus di mana kegagalan akan keluar dari distribusi "kehidupan normal" adalah ketika waktu tidak akan berpengaruh pada tingkat kegagalan, dan oleh karena itu distribusi akan bersifat eksponensial.

2

MTTF terutama bermanfaat sebagai indikasi kehidupan seperti apa yang harus Anda harapkan dari perangkat atau widget. Tidak dapat, karena alasan yang jelas, prediksi yang tepat dari tanggal kegagalan perangkat. Ini hanya perkiraan berdasarkan analisis statistik dari data yang tersedia dan harus dipertimbangkan hanya seperti itu. Berguna untuk penganggaran (berapa lama saya harus amortisasi atau depresiasi biaya di sini) dan perencanaan (berapa lama kita bisa mengharapkan widget untuk melakukan sebelum kita harus mendapatkan yang berikutnya).

music2myear

Pertama, apa sebenarnya adalah sebuah "kegagalan disk"?

Kaitlyn Mcmordie

2

@ Klynlyn - Saya kira Anda merujuk ke bad sector. Saya akan mengatakan kegagalan disk adalah ketika Anda tidak dapat membaca atau menulis ke drive lagi. Biasanya kesalahan mekanis, seperti head crash. Ini biasanya terjadi ketika Anda masih memiliki banyak sektor bagus yang tersisa.

stevenvh

4

Jika sebuah peralatan memiliki MTBF penggunaan 1.000.000 jam, itu tidak berarti bahwa setiap peralatan dapat diharapkan berlangsung 1.000.000 jam. Sebaliknya, itu berarti, secara umum, bahwa jika 1.000.000 peralatan yang berada dalam masa kerja pengenalnya masing-masing dioperasikan selama satu jam, atau 100.000 buah dioperasikan selama sepuluh jam (tetapi masih dalam masa pengenal), atau 60.000.000 untuk satu menit, dll. kira-kira akan ada satu kegagalan di tempat parkir. Perhatikan bahwa layanan seumur hidup dinilai sepenuhnya orthogonal untuk MTBF. Pertimbangkan dua jenis widget berikut:

Setiap widget, berapapun usianya, memiliki peluang 0,1% untuk gagal setiap jam.
Dari setiap miliar widget, semua kecuali satu akan beroperasi selama 61 menit dan kemudian mati; yang akan mati setelah 30 menit; widget memiliki masa pakai layanan tertentu selama 60 menit.

Jenis widget pertama memiliki masa hidup rata-rata sekitar 1.000 jam, dan juga memiliki MTBF sekitar 1.000 jam. Yang kedua akan memiliki masa hidup rata-rata 61 menit, tetapi MTBF 1.000.000.000 jam dalam masa layanannya. Meskipun mungkin aneh untuk mengatakan bahwa perangkat kedua memiliki MTBF yang hampir miliar kali selama masa hidup yang diharapkan, MTBF bukanlah angka yang tidak berarti.

Misalkan seseorang akan melakukan percobaan yang mengharuskan 1.000.000 perangkat bekerja dengan sempurna selama satu jam, setelah itu semuanya akan dihapus. Jika ada perangkat yang gagal, seluruh percobaan akan hancur. Yang akan lebih berguna - perangkat yang akan bertahan rata-rata 1.000 jam tetapi memiliki MTBF hanya 1.000 jam, atau perangkat yang akan bertahan paling lama 61 menit, tetapi hanya akan memiliki satu dalam satu miliar peluang gagal untuk memenuhi tanda itu?

supercat
sumber

Jadi, intinya adalah bahwa kita seharusnya tidak melihat MTBF 10 ^ 6 jam sebagai "rata-rata seumur hidup" dari disk tertentu, melainkan sebagai ukuran mengenai masa pakai beberapa disk?

Kaitlyn Mcmordie

@Kaitlyn Mcmordie: Istilah "seumur hidup" tidak benar-benar berlaku; kematian tidak menyiratkan kegagalan, atau sebaliknya. Pembuat perangkat penyimpanan dapat menentukan prosedur yang harus diikuti untuk menghindari kehilangan data; prosedur tersebut dapat mencakup pemindahan semua data dari perangkat apa pun yang memberikan indikasi "kegagalan segera" ke perangkat baru (setelah data disalin, perangkat lama akan dianggap "mati"). Jika tidak ada kehilangan data yang terjadi dari peristiwa seperti itu, itu bukan kegagalan. Namun, kehilangan data yang terjadi dari perangkat apa pun, bahkan yang tampaknya sehat, adalah kegagalan. Tidak ada hubungannya dengan seumur hidup.

supercat

2

Menambah jawaban stevenvh: Produsen disk terkenal semua melakukan burn-in run perangkat baru, seperti halnya produsen komponen elektronik. Dalam hard disk, tidak hanya MTBF dan MTTF keseluruhan tetapi juga statistik kegagalan individu untuk blok disk. Dengan kata lain: Beberapa bagian dari pemintalan, "piring" dalam disk mungkin gagal, sementara sebagian besar masih membaca / menulis ok. Yang disebut "bad sector" dapat dideteksi dan kemudian dipetakan oleh firmware di dalam drive.

Semua drive saat ini berisi sektor tambahan sebagai cadangan yang kemudian dapat digunakan sebagai pengganti sektor yang rusak. Ini hanyalah tindakan pencegahan oleh pabrikan: Jika mereka tidak melakukan ini, mereka tidak dapat menjual disk pada kapasitas yang diumumkan. Jika mereka membangun x% tambahan dari sektor tersembunyi sebagai cadangan, mereka meningkatkan biaya sebesar <x% tetapi mencapai hasil produksi keseluruhan yang jauh lebih tinggi.

Disk hari ini menyimpan hitungan bad sector yang juga dapat dibaca dengan perangkat lunak yang sesuai. Ini dan parameter kesehatan disk lainnya (misalnya suhu) disebut nilai SMART .

Sekarang, begitu pabrikan telah melakukan tes burn-in drive, dan beberapa sektor hampir mengalami kegagalan dan telah dipetakan kembali oleh firmware internal drive, parameter SMART "Bad Sector Count" parameter diatur ke 0. Kemudian drive dikirimkan ke pelanggan.

Biasanya, setelah proses pembakaran, awal kurva bathtub yang telah disebutkan tidak lagi terlihat oleh pelanggan. Kami beruntung, dan hanya melihat peningkatan kemungkinan kegagalan seiring waktu.

Jadi jika Anda melihat MTTF yang dikutip oleh pabrikan, untuk setiap pemodelan kegagalan yang mungkin ingin Anda lakukan, Anda dapat mengabaikan awal dari kurva bathtub.

cfi
sumber

Terima kasih. Btw, apakah Anda tahu apa arti istilah "kesalahan server"?

Kaitlyn Mcmordie

Arti yang jelas adalah kesalahan yang ditemui oleh komputer yang menyediakan layanan kepada orang lain. Dan saya percaya itu adalah waktu di mana Anda seharusnya mengajukan pertanyaan di serverfault.com ;-) Tidak dapat menemukan apa pun di FAQ

cfi

-2

Anda harus menafsirkan ini sebagai pemasaran. Mereka sebenarnya tidak tahu persis MTBF (Rata-rata waktu antara kegagalan), jadi mereka menggunakan berbagai trik untuk memperkirakannya, dan mereka menunjukkan angka yang lebih tinggi untuk drive 'perusahaan' untuk membenarkan biaya mereka.

Pada kenyataannya, itu menguntungkan bagi produsen HDD untuk memiliki HDD mereka gagal segera setelah garansi berakhir.

Sebagai teori konspirasi, saya percaya kegagalan massal Seagate 7200.11 adalah kesalahan dalam menerapkan 'kematian terprogram' yang menyebabkan disk gagal sebelum garansi berakhir, sehingga mereka harus 'memperbaikinya' dengan pembaruan firmware.

BarsMonster
sumber

Saya tidak membeli argumen konspirasi ini.

1

@Federico Russo: Mengapa? Anda pikir itu hanya kesalahan pengembang biasa, menyebabkan HDD terkunci dalam keadaan tidak dapat dipulihkan setelah beberapa jam?

BarsMonster

2

-1: Analisis statistik digunakan untuk menentukan angka MTBF, dan itu diketahui oleh statistik tertentu - mereka tidak hanya menggunakan "berbagai trik". Anda akan memerlukan beberapa sumber signifikan untuk mendukung pernyataan Anda bahwa drive perusahaan hanya angka yang lebih tinggi, bahwa produsen HDD mengalami kegagalan setelah garansi berakhir, dan bahwa Seagate mengimplementasikan segala jenis 'kematian terprogram' dalam drive mereka.

Kevin Vermeer

1

Adalah kepentingan utama produsen drive untuk menunjukkan MTTF lebih tinggi daripada pesaing mereka. +1

tyblu

Apa sebenarnya adalah kegagalan disk? Apa yang diperhitungkan?

Kaitlyn Mcmordie

Mean Time to Failure (MTTF): Ketika produsen disk memposting ini, bagaimana Anda menafsirkan angka-angkanya?

Jawaban: