Mean Time Between Failures - SSD

32

The Mean Time Between Kegagalan , atau MTBF, untuk ini SSD terdaftar sebagai 1,500,000jam.

Itu banyak waktu. 1,500,000jam kira-kira 170bertahun - tahun. Karena penemuan SSD khusus ini adalah pasca-Perang Saudara, bagaimana mereka tahu apa MTBF itu?

Beberapa opsi yang masuk akal bagi saya:

  • Newegg hanya memiliki kesalahan ketik
  • Definisi waktu rata-rata antara kegagalan bukan apa yang saya pikirkan
  • Mereka menggunakan beberapa jenis ekstrapolasi statistik untuk memperkirakan apa yang akan menjadi MTBF

Pertanyaan:

Bagaimana Mean Time Between Failures (MTFB) diperoleh untuk SSD / HDD?

OSE
sumber
Terkait: serverfault.com/q/257693/126632
Michael Hampton

Jawaban:

34

Produsen drive menentukan keandalan produk mereka dalam dua metrik terkait: laju kegagalan tahunan (AFR), yang merupakan persentase drive disk dalam populasi yang gagal dalam pengujian yang diskalakan ke estimasi per tahun; dan mean time to failure (MTTF).

AFR suatu produk baru biasanya diperkirakan berdasarkan uji umur dan stres yang dipercepat atau berdasarkan data lapangan dari produk sebelumnya. MTTF diperkirakan sebagai jumlah daya pada jam per tahun dibagi dengan AFR. Asumsi umum untuk drive di server adalah mereka dihidupkan 100% dari waktu.

http://www.cs.cmu.edu/~bianca/fast/

MTTF 1,5 juta jam terdengar agak masuk akal.

Itu kira-kira akan menjadi tes dengan 1000 drive berjalan selama 6 bulan dan 3 drive gagal.
AFR akan menjadi (2 * 6 bulan * 3) / (1000 drive) = 0,6% setiap tahun dan MTTF = 1 yr / 0,6% = 1.460.967 jam atau 167 tahun.

Cara berbeda untuk melihat angka itu adalah ketika Anda memiliki 167 drive dan membiarkannya berjalan selama setahun, pabrikan mengklaim bahwa rata-rata Anda akan melihat satu drive gagal.

Tapi saya berharap itu hanyalah tingkat kegagalan mekanik / elektronik "acak" yang konstan.

Dengan asumsi bahwa tingkat kegagalan mengikuti kurva bathtub , seperti yang disebutkan dalam komentar, tim pemasaran pabrikan dapat memijat angka keandalan sedikit, misalnya dengan tidak termasuk DOA (mati pada saat kedatangan, unit yang melewati kontrol kualitas tetapi gagal ketika pengguna akhir menginstalnya) dan meregangkan definisi DOA untuk juga mengecualikan orang-orang di awal kegagalan. Dan karena pengujian tidak dilakukan cukup lama Anda juga tidak akan melihat efek usia.

Saya pikir masa garansi adalah indikasi yang lebih baik untuk berapa lama produsen benar-benar mengharapkan SSD untuk bertahan lama!
Itu pasti tidak akan diukur dalam beberapa dekade atau abad ...


Terkait dengan MTBF adalah keandalan yang terkait dengan jumlah siklus tulis yang terbatas yang dapat didukung sel-sel NAND. Metrik umum adalah kapasitas total menulis, biasanya dalam TB. Selain persyaratan kinerja lainnya yaitu satu pembatas besar.

Untuk memungkinkan perbandingan yang lebih nyaman antara drive yang berbeda dan drive yang berukuran berbeda, ketahanan penulisan sering dikonversi ke kapasitas penulisan harian sebagai sebagian kecil dari kapasitas disk.

Dengan asumsi bahwa drive dinilai hidup selama masih dalam garansi:
SSD 100 GB mungkin memiliki garansi 3 tahun dan kapasitas tulis 50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Semakin tinggi angka itu, semakin cocok disk untuk menulis intensif IO.
Pada saat ini (akhir 2014) nilai server SSD memiliki nilai 0,3-0,8 drive / hari, mid-range meningkat terus dari 1-5 dan high-end tampaknya melambung tinggi dengan tingkat ketahanan tulis hingga 25 * Kapasitas drive per hari selama 3-5 tahun.

Beberapa tes dunia nyata menunjukkan bahwa kadang-kadang klaim vendor dapat dilampaui secara besar-besaran, tetapi mengendarai peralatan melewati batas vendor tidak selalu menjadi pertimbangan perusahaan ... Alih-alih membeli drive dengan spesifikasi yang tepat untuk keperluan Anda.

HBruijn
sumber
1
Perhatikan bahwa konversi dari AFR ke MTTF mengasumsikan AFR konstan. Ini jelas tidak benar untuk hal-hal dengan bagian yang bergerak (mis. Hard drive), dan mungkin tidak berlaku untuk SSD.
Markus
Jelas benar. IIRC ada lonjakan kegagalan awal, kemudian periode kegagalan rendah dan kemudian peningkatan yang stabil dalam AFR dengan bertambahnya usia. Tambahkan faktor lingkungan yang berubah dan jumlah dunia nyata menjadi jauh lebih tinggi. Seperti yang @Chris S sebutkan, periode garansi mungkin merupakan metrik yang lebih baik dengan dampak dunia nyata yang bermanfaat.
HBruijn
Pandangan serius yang bagus bahwa MTBF 1'500'000 jam benar-benar berarti "Jika saya memiliki 1000 ssd seperti ini, 3 kemungkinan akan gagal dalam 6 bulan (beberapa bahkan lebih awal dari itu) ...". +1 (dan karena tes berlangsung dalam waktu singkat, perkirakan masa hidup mereka tidak melebihi garansi ... "MTBF" mungkin turun drastis saat drive Anda mencapai N tahun)
Olivier Dulac
1
@HBruijn Terima kasih atas jawaban informatif Anda. Fenomena yang Anda maksudkan (lonjakan kegagalan awal, periode kegagalan rendah, lalu peningkatan kegagalan stabil) dijelaskan oleh kurva bathtub .
OSE
19

Sayangnya MTBF bukanlah apa yang kebanyakan orang pikirkan ...

  • Ini bukan berapa lama masing-masing drive akan bertahan.

    Pabrikan mengharapkan drive mereka bertahan selama garansi, setelah itu sebenarnya bukan masalah mereka. Hard drive plat elektromagnetik yang lebih tua akan hidup setelah 10 tahun atau lebih. Sirkuit terpadu bertahan lama, tetapi komponen lain (terutama kapasitor) aus setelah beberapa siklus yang dapat diprediksi.

  • Ini adalah berapa banyak dari drive ini Anda akan perlu untuk mengharapkan 1 drive gagal setiap jam.

    Seperti orang lain telah menunjukkan manufaktur melakukan berbagai pengujian selama periode waktu yang masuk akal dan menentukan tingkat kegagalan. Ada cukup banyak variasi dalam tes semacam ini dan pemasaran sering kali memiliki "input" seperti apa angka akhirnya. Terlepas dari itu mereka membuat upaya terbaik untuk menentukan berapa banyak drive yang dibutuhkan untuk rata-rata satu kegagalan per jam.

    Untuk situasi dengan drive yang lebih sedikit, Anda dapat menyimpulkan probabilitas statistik kegagalan berdasarkan MTBF, tetapi perlu diingat bahwa kegagalan dalam produk yang dirancang dengan baik harus mengikuti kurva "bathtub" - yang merupakan tingkat kegagalan yang lebih tinggi ketika perangkat awalnya dioperasikan dan setelah masa garansi mereka telah berakhir, dengan tingkat kegagalan yang lebih rendah di antaranya.

Chris S
sumber
2

Mereka datang dari evaluasi statistik berdasarkan ukuran sampel yang kecil dan waktu yang singkat. Benar-benar tidak ada metode atau proses yang disepakati secara universal sehingga itu benar-benar hanya 'pemasaran' konyol.

Artikel ini mungkin menjelaskannya sedikit lebih banyak. Dan Wikipedia memiliki beberapa rumus yang mungkin Anda cari?

Pada dasarnya, untuk hampir semua (termasuk mesin rumah tangga umum seperti mesin pencuci piring) beberapa produk dijalankan untuk jumlah waktu X. Berapa banyak kegagalan yang terjadi selama periode ini digunakan untuk menghitung MTFB.

Tentu saja tidak layak untuk menjalankan produk melalui seluruh siklus hidup, yaitu SSD, yang akan bertahan lama. Mereka sebagian besar dibatasi oleh jumlah penulisan daripada kegagalan mekanis (untuk MTFB)

bhavicp
sumber
2

Kabar buruk tentang MTBF adalah bahwa metoda evaluasi umum mengandaikan muatan tulis yang didistribusikan secara merata di antara semua sel NAND. Tetapi sel dikelompokkan ke dalam kelompok dan ketika satu sel tunggal gagal - seluruh kelompok ditandai sebagai mati dan diganti dengan yang baru dari cadangan. Biasanya cadangan sekitar 20% dari volume SSD. Ketika cadangan habis, seluruh SSD akan ditandai mati.

SSD IRL berisi data persisten dan juga tidak stabil. Bayangkan bahwa Anda memiliki 90% SSD diisi dengan data statis, dan sisanya 10% berada di bawah beban tulis yang berat. Pengontrol SSD menyebarkan beban di antara kluster gratis yang tersedia. 10% itu menghabiskan masa hidup mereka 10 kali lebih cepat dari yang Anda perkirakan. Mereka akan diganti dari cadangan lagi dan lagi sampai akhir.

Dalam kasus yang benar-benar buruk di mana jumlah data persisten / volatile adalah 30: 1 atau lebih besar, misalnya - tumpukan foto dan basis data yang relatif kecil untuk situs web populer, SSD Anda akan mati dalam setahun.

Salah satu pelanggan saya sangat terkesan dengan karakteristik SSD dan bersikeras untuk melengkapi server DBMS-nya dengan sepasang. Dalam 12 bulan ke depan kami telah mengganti keduanya dua kali.

Tetapi sesuai dengan umur materi pemasaran SSD adalah 170 tahun. Yakin.

Kondybas
sumber
1

MTBF tidak relevan untuk mengukur daya tahan drive SSD karena SSD tidak sensitif untuk waktu itu sendiri seperti drive HDD pemintalan biasa tetapi untuk jumlah penulisan ulang untuk sel SSD. Ukuran yang lebih relevan untuk SSD adalah Drive Writes Per Day (DWPD) . Sebagai contoh, beberapa disk SSD kelas perusahaan 3.2TB akan menjadi 3 DWPD selama 5 tahun.

Beberapa kali vendor SSD memberikan daya tahan dalam hal (Total) Terabytes Written (TBW) atau "Write Cycles" yang dapat dengan mudah diterjemahkan ke DWPD dan sebaliknya mengetahui waktu dan throughput maksimum untuk drive SSD yang diberikan.

Untuk contoh yang diberikan dengan drive SSD 3.2Tb:
TBW = DriveSize * Years * DWPD;
TBW = 3.2TB * 5 * 365 * 3d = 17520 TB selama 5 tahun

Jika drive memberikan 80 MByte per detik throughput menulis berkelanjutan, maka
WriteCycles = DWPD * Tahun;
WriteCycles = 3 * 365 * 5 = 5475 total siklus tulis untuk disk yang diberikan

Yang penting diperhatikan adalah kami menghitung kasus terburuk jika Anda akan memberikan throughput pemanfaatan 100% untuk drive (yang kemungkinan besar tidak mungkin).

BBK
sumber