Mengidentifikasi apa yang menyebabkan server reboot

8

Saya memiliki HP ProLiant DL380p Gen8 yang menjalankan VMWare ESXi 5.5 . Ini telah me-reboot dirinya sendiri pada interval yang tampaknya acak selama 24 jam terakhir. Hanya ada satu VM yang berjalan, dan bahkan jika saya mematikannya host masih akan reboot. Server tidak kehabisan memori atau ruang disk, dan sejauh yang saya tahu tidak terlalu panas. Saya sudah mencoba mencari melalui file log, tetapi ada begitu banyak untuk dilihat.

Apa langkah paling penting dalam mendiagnosis masalah ini (termasuk pengaturan mana yang akan diperiksa, file apa yang harus dilihat, pesan spesifik apa yang mengindikasikan masalah, haruskah saya mulai menarik memori, apakah ada CD diagnostik yang melakukan semua ini untuk saya, dll) ?

Saya tahu ini adalah pertanyaan yang sangat luas. Saya senang memberikan file log jika perlu untuk membuat ini lebih spesifik untuk situasi saya.

nachito
sumber

Jawaban:

9

Berikut ini beberapa saran.

  • Apakah ILO Anda terhubung dan terkonfigurasi? Ini akan memberi tahu Anda apa yang terjadi dengan sistem. Harap tinjau log ILO4.

  • Lihat log IML sistem (tersedia melalui tab "perangkat keras" ILO atau vSphere)

  • Apakah ada indikator atau pesan kesalahan di layar selama crash atau di POST?

  • Apakah Anda menggunakan penginstalan ESXi khusus HP (termasuk driver dan alat tambahan)

  • Apa versi dan jumlah build ESXi yang Anda jalankan?

  • Jika mesin virtual yang Anda jalankan adalah tamu Windows 2012 atau 2008, Anda mungkin mengalami bug driver NIC .

  • Periksa koneksi daya Anda. Apakah Anda memiliki catu daya ganda? Pasang kembali kabel daya satu per satu.

  • Lihatlah array LED System Insight di bagian depan server untuk menentukan apakah ada masalah kesehatan internal.

masukkan deskripsi gambar di sini

putih
sumber
2
Dan HUBUNGI VENDOR UNTUK DUKUNGAN juga. Anda dapat dan harus meluangkan waktu untuk menyelidiki diri Anda sendiri, tetapi jika ini adalah server yang penting, itu harus di bawah perjanjian dukungan.
mfinni
Saya belum menyiapkan ILO, terima kasih banyak atas sarannya. Setelah diatur, saya memeriksa log dan menemukan ini System Overheating (Temperature Sensor 1, Location Ambient, Temperature 46C). Saya akan segera memperbaikinya.
nachito
Ini berarti ruang server atau lingkungan Anda terlalu hangat. Ini juga akan menghasilkan lampu MERAH pada LED suhu pada gambar di atas. Bergantung pada saat Anda menggunakan server ini, Anda mungkin juga ingin menjalankan pembaruan firmware pada sistem.
ewwhite
Saya pikir apa yang terjadi adalah pembuangan dari rak lain terlalu dekat dengan asupan untuk mesin ini, karena ruangan itu sendiri adalah 72F yang keren. Ketika saya melihat mesin ketika reboot, saya melihat flash OverTemp selama sepersekian detik. Tidak heran saya tidak pernah melihat itu sebelumnya, jika Anda berkedip pada saat yang salah Anda benar
nachito
3
@nachito Saya harap Anda tahu bahwa ILO dan server dapat mengirimi Anda email peringatan kesehatan, seperti kondisi suhu ini ...
ewwhite