Bagaimana cara memeriksa sisa masa pakai dalam SSD atau tingkat keausan medium?

31

Kita semua tahu bahwa SSD memiliki masa hidup terbatas yang telah ditentukan sebelumnya. Bagaimana cara memeriksa di Linux apa status kesehatan SSD saat ini?

Sebagian besar hasil pencarian Google akan meminta Anda untuk mencari informasi SMART untuk bidang persentase yang disebut Media_Wearout_Indicator, atau indikator jargon lainnya seperti Daya Tahan Data Jangka Panjang - yang tidak ada - Ya saya memang memeriksa dua SSD, keduanya kekurangan bidang ini. Saya bisa terus mencari SSD ketiga, tetapi saya merasa bidangnya tidak terstandarisasi.

Untuk menunjukkan masalah di sini adalah dua contoh.


Dengan SSD pertama, tidak jelas bidang mana yang mengindikasikan tingkat keausan. Namun, hanya ada satu Unknown_Attribute yang RAW VALUE-nya antara 1 dan 100, jadi saya hanya bisa berasumsi bahwa itulah yang kami cari:

    $ sudo smartctl -A /dev/sda                                             
    smartctl 6.2 2013-04-20 r3812 [x86_64-linux-3.11.0-14-generic] (local build)
    Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

    === START OF READ SMART DATA SECTION ===                                 
    SMART Attributes Data Structure revision number: 1                       
    Vendor Specific SMART Attributes with Thresholds:                        
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      5 Reallocated_Sector_Ct   0x0002   100   100   000    Old_age   Always       -       0
      9 Power_On_Hours          0x0002   100   100   000    Old_age   Always       -       6568
     12 Power_Cycle_Count       0x0002   100   100   000    Old_age   Always       -       1555
    171 Unknown_Attribute       0x0002   100   100   000    Old_age   Always       -       0
    172 Unknown_Attribute       0x0002   100   100   000    Old_age   Always       -       0
    173 Unknown_Attribute       0x0002   100   100   000    Old_age   Always       -       57
    174 Unknown_Attribute       0x0002   100   100   000    Old_age   Always       -       296
    187 Reported_Uncorrect      0x0002   100   100   000    Old_age   Always       -       0
    230 Unknown_SSD_Attribute   0x0002   100   100   000    Old_age   Always       -       190
    232 Available_Reservd_Space 0x0003   100   100   005    Pre-fail  Always       -       0
    234 Unknown_Attribute       0x0002   100   100   000    Old_age   Always       -       350
    241 Total_LBAs_Written      0x0002   100   100   000    Old_age   Always       -       742687258
    242 Total_LBAs_Read         0x0002   100   100   000    Old_age   Always       -       1240775277

Jadi SSD ini telah menggunakan 57% dari rentang hidup yang ditulis ulang, apakah benar?


Dengan disk lain, SSD_Life_Left ATTRIBUTE menonjol, tetapi nilai Raw-nya 0, menunjukkan 0% masa pakai yang tersisa, tidak mungkin untuk SSD yang tampaknya sehat kecuali jika kebetulan berada dalam bahaya (kita akan lihat dalam beberapa hari), dan jika berbunyi "0% life telah digunakan", juga tidak mungkin untuk hard disk yang aus (dipakai = digunakan selama lebih dari setahun).

    > sudo /usr/sbin/smartctl -A /dev/sda
    smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.11.6-4-desktop] (SUSE RPM)
    Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

    === START OF READ SMART DATA SECTION ===
    SMART Attributes Data Structure revision number: 10
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x000f   104   100   050    Pre-fail  Always       -       0/8415644
      5 Retired_Block_Count     0x0033   100   100   003    Pre-fail  Always       -       0
      9 Power_On_Hours_and_Msec 0x0032   100   100   000    Old_age   Always       -       4757h+02m+17.130s
     12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1371
    171 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
    172 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
    174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       52
    177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       2
    181 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
    182 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
    187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
    194 Temperature_Celsius     0x0022   030   030   000    Old_age   Always       -       30 (Min/Max 30/30)
    195 ECC_Uncorr_Error_Count  0x001c   104   100   000    Old_age   Offline      -       0/8415644
    196 Reallocated_Event_Count 0x0033   100   100   000    Pre-fail  Always       -       0
    231 SSD_Life_Left           0x0013   100   100   010    Pre-fail  Always       -       0
    233 SandForce_Internal      0x0000   000   000   000    Old_age   Offline      -       3712
    234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       1152
    241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       1152
    242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       3072
Tankman 六四
sumber
Dengan atribut SMART, nilai yang lebih rendah lebih buruk karena drive selalu memperingatkan jika nilai lebih rendah dari (atau sama dengan? Tidak yakin) nilai ambang batas. Yang telah dikatakan, itu sangat bagus untuk memiliki indikator keausan, tapi saya harap Anda tidak mempercayai data berharga ke salah satu perangkat penyimpanan. Anda harus menjalankan beberapa perangkat penyimpanan dalam pengaturan RAID.
Alexios
Bagaimana Anda tahu data saya 'berharga'? Ini hanya salinan offline database pengetahuan perusahaan ke laptop saya. Saya berkomentar untuk menegaskan bahwa orang menganggap skenario sysop terlalu sering. Terima kasih atas komentar Anda.
Tankman 六四
Semua data berharga. :) Kita mulai dari prinsip itu, kemudian beralih ke data yang lebih berharga (foto digital seorang fotografer, misalnya) dan kurang berharga (OS - mudah diganti, tetapi downtime dan kehilangan waktu / pendapatan jika Anda harus ganti itu).
Alexios
Kedua drive berada dalam batas daya tahan. Drive pertama hanya memiliki sekitar 350 GiB di atasnya, sedangkan drive kedua memiliki 1,1 TiB di atasnya. Saya tidak yakin apa yang terjadi di sini ...
bwDraco

Jawaban:

19

Dalam contoh pertama Anda, apa yang saya pikir Anda maksudkan adalah "Indikator Keausan Media" pada drive Intel, yang merupakan atribut 233. Ya, ia memiliki kisaran 0-100, dengan 100 sebagai drive baru, tidak terpakai, dan 0 benar-benar usang. Menurut ouptut Anda, bidang ini tampaknya tidak ada.

Dalam contoh kedua Anda, silakan baca dokumen resmi tentang SSD_Life_Left. Per halaman itu:

Nilai RAW dari atribut ini selalu 0 dan tidak memiliki arti. Sebagai gantinya, periksa VALUE yang dinormalisasi. Ini dimulai pada 100 dan menunjukkan perkiraan persentase masa pakai SDD yang tersisa. Biasanya menurun ketika blok Flash ditandai sebagai buruk, lihat nilai RAW dari Retired_Block_Count

Sangat penting bagi Anda untuk sepenuhnya memahami apa yang dikatakan smartctl (8), dan tidak membuat asumsi. Sayangnya, alat SMART tidak selalu mutakhir dengan SSD terbaru dan atributnya. Karena itu, tidak selalu ada cara yang bersih untuk mengetahui berapa kali keripik telah ditulis. Yang terbaik yang dapat Anda lakukan, adalah melihat pada "Power_On_Hours", yang dalam kasus Anda adalah "6568", menentukan pemanfaatan disk rata-rata, dan rata-rata keluar.

Anda harus dapat mencari spesifikasi drive Anda, dan menentukan proses yang digunakan untuk membuat chip. Chip proses 32nm akan memiliki daya tahan tulis yang lebih lama daripada chip proses 24nm. Namun, tampaknya "rata-rata", Anda mungkin dapat mengharapkan sekitar 3.000 hingga 4.000 tulisan, dengan minimal 1.000 dan maksimal 6.000. Jadi, jika Anda memiliki SSD 64GB, maka Anda harus mengharapkan di suatu tempat di lingkungan dari total 192TB hingga 256TB ditulis ke SSD, dengan asumsi leveling aus.

Sebagai contoh, jika Anda mempertahankan penggunaan katakanlah 11 KBps ke drive Anda, maka Anda bisa berharap untuk melihat sekitar 40 MB ditulis per jam. Dengan daya 6568 pada jam, Anda telah menulis sekitar 260 GB ke disk. Mengetahui bahwa Anda mungkin dapat mempertahankan sekitar 200 TB dari total penulisan, sebelum kegagalan, Anda memiliki sekitar 600 tahun sebelum kegagalan karena kehabisan chip. Disk Anda kemungkinan akan gagal karena kapasitor usang atau regulasi voltase.

Aaron Toponce
sumber
9
Jelas sekali, terima kasih. Pengetahuan ini paling baik dibuat menjadi alat GUI yang memanfaatkan smartctl atau API-nya. Setelah semua menghitung dengan kalkulator dengan menggunakan komputer sebagai perangkat input dan manusia yang duduk di depannya sebagai prosesor bertentangan dengan semangat yang diciptakan komputer!
Tankman 六四
Tautan Anda tampaknya sudah mati
Skeleton Bow
15

Untuk Samsung SSD, periksa atribut SMART 177 (Wear Leveling Count).

ID # 177 Count Leveling Wear

Atribut ini mewakili jumlah program media dan menghapus operasi (berapa kali blok telah dihapus). Nilai ini terkait langsung dengan masa pakai SSD. Nilai mentah atribut ini menunjukkan jumlah total Siklus P / E.

Sumber: http://www.samsung.com/global/business/semiconductor/minisite/SSD/M2M/download/07_Communicating_With_Your_SSD.pdf

Indikator tingkat keausan mulai dari 100 dan menurun secara linear ke bawah hingga 1 dari yang dapat saya katakan. Pada 1 drive akan melampaui semua siklus nilai / p, tetapi pada kenyataannya total daya tahan drive dapat secara signifikan melebihi nilai itu.

Sumber: http://www.anandtech.com/show/7173/samsung-ssd-840-evo-review-120gb-250gb-500gb-750gb-1tb-models-tested/3

Saya sarankan Anda mengambil pernyataan terakhir tentang melebihi nilai itu dengan sebutir garam.

Diaa Sami
sumber
Tautan sudah mati sekarang.
Kalkulus Knight
Saya pikir mereka memiliki pesanan untuk Wear_Leveling_Count mundur. Saya memiliki 2 Samsung SSD dan yang ~ 4 tahun memiliki RAW_VALUE 42 dan yang lain ~ 1 bulan memiliki RAW_VALUE 0. Sepertinya itu dimulai pada 0 dan naik ke atas.
John Eikenberry
4

Jika Anda tidak memiliki SSD merek Intel: Hati-hati !! Saya memiliki Samsung SSD, dan saya benar-benar disesatkan oleh pelabelan atribut yang salah oleh smartmontools / smartctl. Jika Anda memiliki sesuatu selain Intel - Anda dapat menemukan kisah saya tentang rasa sakit (tidak waras) di https://askubuntu.com/a/460463/65722 membantu.

Semoga rasio kualitas informasi Anda dengan waktu yang dihabiskan untuk menggali lebih baik daripada rasio saya!

Matt S.
sumber
0

memiliki server dengan kartu serangan LSI , saya sudah menginstal 7 Samsung SSD.

Demikianlah itu

  • / dev / sda adalah SSD sistem operasi saya, ditandai sebagai JBOD oleh Raid Controller.
  • 7 SSD lainnya hanya muncul sebagai / dev / sdb karena merupakan RAID 0 (atau RAID-?).

untuk mendapatkan info disk di belakang pengontrol serangan , triknya adalah

smartctl --scan

{output is}
/dev/sda -d scsi # /dev/sda, SCSI device
/dev/sdb -d scsi # /dev/sdb, SCSI device
/dev/bus/0 -d megaraid,8 # /dev/bus/0 [megaraid_disk_08], SCSI device
/dev/bus/0 -d megaraid,9 # /dev/bus/0 [megaraid_disk_09], SCSI device
/dev/bus/0 -d megaraid,10 # /dev/bus/0 [megaraid_disk_10], SCSI device
/dev/bus/0 -d megaraid,11 # /dev/bus/0 [megaraid_disk_11], SCSI device
/dev/bus/0 -d megaraid,12 # /dev/bus/0 [megaraid_disk_12], SCSI device
/dev/bus/0 -d megaraid,13 # /dev/bus/0 [megaraid_disk_13], SCSI device
/dev/bus/0 -d megaraid,14 # /dev/bus/0 [megaraid_disk_14], SCSI device
/dev/bus/0 -d megaraid,15 # /dev/bus/0 [megaraid_disk_15], SCSI device

kemudian untuk mendapatkan info smartctl seperti

  • WEAR_LEVELING_COUNT
  • POWER_ON_HOURS
  • TEMPERATURE_CELCIUS dan semua hal bagus lainnya

untuk setiap disk lakukan

smartctl -d megaraid,8 -all /dev/bus/0
smartctl -d megaraid,9 -all /dev/bus/0
smartctl -d megaraid,10 -all /dev/bus/0
{down to}
smartctl -d megaraid,15 -all /dev/bus/0

sintaks smartctl adalahsmartctl [options] <device>

ini adalah bagaimana Anda masuk dan melalui kartu raid ketika beberapa disk tidak muncul sebagai beberapa perangkat seperti / dev / sdb, / dev / sdc, / dev / sdd, dan sebagainya.

ron
sumber