Periksa kesalahan hard disk / tanda-tanda kegagalan pada CentOS Server

14

Apa cara terbaik untuk memeriksa kesalahan HDD dan tanda-tanda awal kegagalan pada CentOS?

inac
sumber
1
seberapa sering cek seharusnya? harian Mingguan?
inac

Jawaban:

3

Saya akan merekomendasikan menginstal smartmon ( http://sourceforge.net/apps/trac/smartmontools/wiki ) ke mesin Anda ini adalah beberapa perangkat lunak yang dapat memeriksa kesehatan disk Anda jika tidak akan memeriksa / var / log / pesan atau / var / log / syslog untuk setiap menyebutkan kesalahan scsi

Paul
sumber
Smartmon tampaknya, meskipun statistiknya menyebutkan itu akan menangkap hanya 60% dari drive yang gagal .. jika saya mengatur smartmon untuk memindai setiap hari, apakah ini benar-benar membantu hdd mati lebih cepat - itu adalah seagate 7200.10?
inac
@inac smartmon akan membantu hdds mati lebih cepat? Di mana Anda membaca ini? Silakan tambahkan URL.
030
2
dmesg

Kernel akan mencatat semua pesan diagnostik tentang perangkat I / O, sehingga Anda dapat memeriksa pesan-pesan itu dengan perintah dmesg.

Banjer
sumber
tetapi Anda harus menjalankan ini secara manual atau cronjob dmesg dump to vi?
inac
antara. Anda dapat membuat skrip untuk membuangnya dengan "dmesg> dmesg.dump.txt" dan jalankan setiap hari dengan cron.
Banjer
1

Anda dapat menjalankan fsck pada perangkat untuk memeriksa kesalahan.

didaftarkan
sumber
0

Seperti kata Paul, log SMART adalah tempat yang bagus untuk memeriksa.

Saya juga merekomendasikan menjalankan BadBlocks . Jika Anda memiliki kartu RAID, Anda mungkin harus menggunakan pemantauan itu.

Dentrasi
sumber
0

Pemantauan SMART adalah cara yang baik. Sebagai root,, di smartctl -a /dev/hdamana hda adalah drive yang Anda inginkan ... bisa hdb, sda, dll. Juga merekomendasikan pengaturan alamat email Anda di / etc / aliases sebagai orang yang harus mendapatkan email root.

Itu jawaban yang sangat samar. Jika Anda memiliki server yang dibuat oleh salah satu produsen besar (Dell, HP, dll), kemungkinan ada kemampuan pemantauan yang lebih baik.

churnd
sumber
0

Anda dapat mencoba memeriksa sepenuhnya partisi / dev / sda1 (misalnya) sebagai

fsck -f /dev/sda1

atau, coba tes baca-tulis non-descruktif dari partisi yang diberikan

badblocks -vn /dev/sda1
Liibo
sumber
/dev/sda1 is mounted; it's not safe to run badblocks!
030
e2fsck: Cannot continue, aborting.
030
@ 030 Jatuhkan ke runlevel di mana disk utama tidak dipasang.
awiebe