Bagaimana cara menentukan penyebab sistem crash?

10

Server saya mogok sekitar sekali seminggu dan tidak meninggalkan petunjuk apa pun yang menyebabkannya. Saya telah memeriksa /var/log/messagesdan hanya berhenti merekam di beberapa titik dan mulai pada informasi posting komputer ketika saya melakukan reboot.

Apakah ada sesuatu yang dapat saya periksa atau perangkat lunak yang dapat saya instal yang dapat menentukan penyebabnya?

Saya menjalankan CentOS 7.

Inilah satu-satunya kesalahan / masalah dalam saya /var/log/dmesg: https://paste.netcoding.net/cosisiloji.log

[    3.606936] md: Waiting for all devices to be available before autodetect
[    3.606984] md: If you don't use raid, use raid=noautodetect
[    3.607085] md: Autodetecting RAID arrays.
[    3.608309] md: Scanned 6 and added 6 devices.
[    3.608362] md: autorun ...
[    3.608412] md: considering sdc2 ...
[    3.608464] md:  adding sdc2 ...
[    3.608516] md: sdc1 has different UUID to sdc2
[    3.608570] md:  adding sdb2 ...
[    3.608620] md: sdb1 has different UUID to sdc2
[    3.608674] md:  adding sda2 ...
[    3.608726] md: sda1 has different UUID to sdc2
[    3.608944] md: created md2
[    3.608997] md: bind<sda2>
[    3.609058] md: bind<sdb2>
[    3.609116] md: bind<sdc2>
[    3.609175] md: running: <sdc2><sdb2><sda2>
[    3.609548] md/raid1:md2: active with 3 out of 3 mirrors
[    3.609623] md2: detected capacity change from 0 to 98520989696
[    3.609685] md: considering sdc1 ...
[    3.609737] md:  adding sdc1 ...
[    3.609789] md:  adding sdb1 ...
[    3.609841] md:  adding sda1 ...
[    3.610005] md: created md1
[    3.610055] md: bind<sda1>
[    3.610117] md: bind<sdb1>
[    3.610175] md: bind<sdc1>
[    3.610233] md: running: <sdc1><sdb1><sda1>
[    3.610714] md/raid1:md1: not clean -- starting background reconstruction
[    3.610773] md/raid1:md1: active with 3 out of 3 mirrors
[    3.610854] md1: detected capacity change from 0 to 20970405888
[    3.610917] md: ... autorun DONE.
[    3.610999] md: resync of RAID array md1
[    3.611054] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[    3.611119] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for resync.
[    3.611180] md: using 128k window, over a total of 20478912k.
[    3.611244]  md1: unknown partition table
[    3.624786] EXT3-fs (md1): error: couldn't mount because of unsupported optional features (240)
[    3.627095] EXT2-fs (md1): error: couldn't mount because of unsupported optional features (244)
[    3.630284] EXT4-fs (md1): INFO: recovery required on readonly filesystem
[    3.630341] EXT4-fs (md1): write access will be enabled during recovery
[    3.819411] EXT4-fs (md1): orphan cleanup on readonly fs
[    3.836922] EXT4-fs (md1): 24 orphan inodes deleted
[    3.836975] EXT4-fs (md1): recovery complete
[    3.840557] EXT4-fs (md1): mounted filesystem with ordered data mode. Opts: (null)
Brian Graham
sumber

Jawaban:

5

Anda dapat memeriksa file dmesg di /var/log/dmesg, yang sedang mencatat pesan-pesan kernel. Log pesan hanya mencatat layanan dan pesan aplikasi dan jika Anda memiliki kesalahan kernel, layanan dan aplikasi hanya akan berhenti berjalan, tetapi kesalahan kernel masih login di dmesg.

Terlalu Berawan
sumber
Saya memeriksa dmesg dan dmesg.old, keduanya hanya berisi informasi startup (sekitar 4,8 detik). Satu-satunya "masalah" yang dapat saya lihat adalah disk startup atau drive raid tampaknya memiliki sesuatu yang salah tetapi sistem memperbaikinya dan berfungsi apa pun. Periksa tautan utama untuk tautan.
Brian Graham
5

Jika Anda telah crashkernel/kdumpmenginstal dan mengaktifkan, Anda seharusnya dapat memeriksa kernel yang crash dengan relatif mudah menggunakan crashutilitas. Misalnya, dengan anggapan bahwa Anda menabrak dump kernel disimpan di bawah /var/crash: crash /var/crash/2009-07-17-10\:36/vmcore /usr/lib/debug/lib/modules/uname -r /vmlinux.

Lihat di sini dan di sini untuk rincian tambahan.

shodanshok
sumber
Saya telah memperbaiki /dev/md1 not foundkesalahan ketika menjalankan grub2-probedan menginstal dan mengkonfigurasi crashkernel / kdump dan akan melaporkan kembali jika / ketika crash lagi.
Brian Graham
2
  • tes memori bios
  • tes hard drive bios
  • Periksa log smart drive smartctl /dev/sda -a
  • Tes drive cerdas
  • biarkan dmesg -wHberjalan di jendela
Jim U
sumber
Saya telah menjalankan tes smart drive pada ketiga drive, semuanya tidak rusak. Saya telah dmesg -wHberjalan di jendela (saya berasumsi sampai crash lagi; dan masih bisa membaca output setelah crash SSH). Saya tidak memiliki akses fisik ke mesin, apakah saya meminta host saya untuk menjalankan memori bios dan tes hard drive?
Brian Graham