Lusinan reboot spontan

0

Saya sedang mengerjakan sistem berbasis SUSE Linux yang beroperasi 24/7 dan telah melakukannya selama sekitar 3 tahun walaupun saya tidak dapat mengatakan bahwa itu belum di-boot ulang pada saat itu.
Pada 9 Juni tampaknya ada semacam penutupan situs, tetapi saya tidak tahu bagaimana penutupan ini ditangani.
Sejak itu telah terjadi reboot instan yang tak terhitung jumlahnya.

Kesalahan telah terjadi pada hampir setiap situasi pengujian yang dapat dipikirkan, mis. aplikasi pengguna yang berjalan atau tidak, mengarsipkan data atau tidak, merekam data baru atau tidak, menjalankan fsck setelah 20 crash atau lebih atau hanya tidak melakukan apa-apa.

  • RAM telah diganti.

  • Kipas pendingin pada CPU heatsink diganti karena cukup berisik (meskipun ada kipas yang lebih besar bertiup hanya sekitar 20 mm).

  • Catu daya telah diganti dan kabel hijau keras untuk mencegahnya dimatikan.

Ini tampaknya memiliki efek bahwa reboot sedikit lebih sering.

Rupanya walaupun saya tidak melakukannya, fsck [mungkin] dijalankan di atasnya [drive 250GB memiliki partisi data sekitar 220GB], tetapi saya tidak tahu apakah semua partisi diperiksa. Namun ternyata sudah berjalan terus menerus selama 2 hari sekarang.

Adakah yang bisa menyarankan jenis masalah apa yang dapat menyebabkan Linux mati dan reboot secara instan?

Steve
sumber
Seperti yang orang lain katakan, ini terdengar seperti masalah perangkat keras. Tetapi untuk masa depan, Anda harus mempertimbangkan untuk memiliki reboot yang terjadwal secara teratur, seperti halnya Anda harus menjadwalkan downtime secara teratur untuk perbaikan. Seperti sekarang, Anda tidak tahu apakah ada perubahan konfigurasi yang dilakukan selama 3 tahun terakhir mungkin bertanggung jawab atas masalah tersebut. Mengurangi jendela waktu itu sangat berharga.
Jenny D

Jawaban:

0

Ini kedengarannya seperti masalah bagi saya. Bisa suhu, PSU atau mobo.

Anda dapat memeriksa log /var/log/*, atau output dari dmesg perintah untuk petunjuk

RAM telah diganti. Kipas pendingin yang lelah pada CPU heatsink diganti sebagai   cukup berisik meskipun ada kipas yang lebih besar bertiup di atasnya saja   sekitar 20 mm catu daya diganti dan kabel hijau keras   ground untuk mencegahnya dimatikan, tetapi ini hanya berarti reboot   sedikit kurang tertunda.

Saya akan periksa lm-sensor atau di dalam " / proc / acpi / thermal_zone "(jika berlaku untuk Anda) untuk setiap tanda overheating.

Petter H
sumber