HP ProLiant DL360 G7 hang pada layar "Power and Thermal Calibration"

41

Saya memiliki sistem HP ProLiant DL360 G7 baru yang menunjukkan masalah yang sulit direproduksi. Server menggantung secara acak di layar " Daya dan Kalibrasi Thermal dalam Progress ... " selama proses POST . Ini biasanya mengikuti boot-hangat / reboot dari sistem operasi yang diinstal.

masukkan deskripsi gambar di sini

Sistem berhenti tanpa batas pada titik ini. Menerbitkan ulang atau memulai-awal melalui kontrol daya ILO 3 membuat sistem boot secara normal tanpa insiden.

Ketika sistem berada dalam kondisi ini, antarmuka ILO 3 dapat diakses sepenuhnya dan semua indikator kesehatan sistem baik-baik saja (semuanya hijau). Server berada di pusat data yang dikendalikan iklim dengan koneksi daya ke PDU. Suhu sekitar adalah 64 ° F / 17 ° C. Sistem ditempatkan dalam loop pengujian komponen 24 jam sebelum penerapan tanpa kegagalan.

Sistem operasi utama untuk server ini adalah VMWare ESXi 5. Kami awalnya mencoba 5.0 dan kemudian versi 5.1. Keduanya dikerahkan melalui boot PXE dan kickstart. Selain itu, kami sedang menguji dengan instalasi baremetal Windows dan Red Hat Linux.

Sistem HP ProLiant memiliki serangkaian opsi BIOS yang komprehensif. Kami telah mencoba pengaturan default selain profil kinerja tinggi Statis. Saya telah menonaktifkan layar splash boot dan hanya mendapatkan kursor berkedip pada saat itu versus tangkapan layar di atas. Kami juga telah mencoba beberapa "praktik terbaik" VMWare untuk konfigurasi BIOS . Kami telah melihat penasehat dari HP yang sepertinya menguraikan masalah yang serupa , tetapi tidak memperbaiki masalah khusus kami.

Mencurigai masalah perangkat keras, saya meminta vendor mengirim sistem yang sama untuk pengiriman hari yang sama. Server baru adalah bangunan yang sepenuhnya identik dengan pengecualian disk. Kami memindahkan disk dari server lama ke yang baru. Kami mengalami masalah booting acak yang sama pada perangkat keras pengganti.

Saya sekarang memiliki kedua server berjalan secara paralel. Masalahnya mengenai sepatu bot secara acak. Sepatu bot dingin sepertinya tidak memiliki masalah. Saya melihat beberapa pengaturan BIOS yang lebih esoteris seperti menonaktifkan Turbo Boost atau menonaktifkan fungsi kalibrasi daya sepenuhnya. Saya bisa mencoba ini, tetapi mereka tidak perlu.

Adakah pikiran?

--edit--

Detail sistem:

  • DL360 G7 - 2 x X5670 CPU Hex-Core
  • RAM 96GB (DIMM Tegangan Rendah 12 x 8GB)
  • Hard Drive SAS 2 x 146GB 15k
  • 2 x 750W catu daya yang berlebihan

Semua firmware terbaru pada Paket Layanan HP terbaru untuk rilis DVD ProLiant.

Menelepon HP dan menjalin interwebz, saya telah melihat menyebutkan interaksi ILO 3 yang buruk, tetapi ini terjadi dengan server pada konsol fisik juga. HP juga menyarankan sumber daya, tetapi ini ada di rak pusat data yang berhasil memberi daya pada sistem produksi lainnya.

Apakah ada kemungkinan bahwa ini bisa menjadi interaksi yang buruk antara DIMM bertegangan rendah dan catu daya 750W? Server ini harus merupakan konfigurasi yang didukung.

putih
sumber
2
Adakah cara untuk menghilangkan disk sebagai penyebab yang mungkin? Apakah Anda dapat menguji dengan beberapa SAS atau SATA disk alternatif?
ErnieTheGeek
Ya, diuji dengan set disk yang dikenal baik di sistem kedua. Mereka berjalan secara paralel.
ewwhite
1
Satu-satunya waktu saya pernah melihat ini dalam suatu sistem (juga DL360 G7) di mana saya mencoba menggunakan kartu non-HP untuk menyediakan penyimpanan. Ketika saya memiliki kartu SmartArray dan kartu lainnya di sana, itu berhasil. Ketika saya mengambil salah satu, itu berlalu. Ini bukan masalah Anda, tapi saya meneruskan apa yang saya temui.
sysadmin1138
1
Mungkin sesuatu yang berhubungan dengan jaringan? Cobalah untuk menggandakan tanpa terhubung ke jaringan.
ErnieTheGeek
1
@TheCleaner Menonaktifkan Dynamic Power Capping bukanlah opsi di server G7. Itu diperkenalkan untuk seri Gen8 ProLiant.
ewwhite

Jawaban:

43

Jadi, setelah membawa sistem ketiga ke dalam campuran, dan mengalami masalah yang sama, kami mulai mempertanyakan lingkungan. Saya menggali salinan Panduan Pemecahan Masalah Server HP ProLiant dan menemukan diagram alur masalah POST yang ditunjukkan di bawah ini.

masukkan deskripsi gambar di sini

Dengan hati-hati menjalankan langkah-langkah dalam bagan, kami menyadari bahwa satu konstanta di semua server adalah sakelar KVM yang melekat pada kereta luncur pusat data. Ini adalah KVM berkemampuan USB kelas konsumen. Sesuai node yang disorot dalam diagram alur, Apakah Anda tahu KVM yang baik? , Saya tidak bisa menjawab dengan meyakinkan.

Jadi, kami mencabut server dari sakelar KVM dan menjalankan boot otomatis, sleep 300; rebootberurutan di rc.local. Server tidak memiliki masalah dengan ini, terlepas dari DIMM normal, DIMM tegangan rendah, watt PSU, dll.

Ini semua adalah hasil dari interaksi yang buruk dengan sakelar USB KVM. Berdasarkan bahwa ini adalah konsol, itu memastikan kita akan melihat kegagalan jika kita mencarinya. Cukup memuaskan ...

putih
sumber
2
Wow, itu bagus! Senang Anda sussed ini.
nedm
7
Gagak suci. +1 untuk pertanyaan dan jawaban. Kerja bagus; Saya mungkin akan mengabaikan itu. "Dikenal baik"? Tentu saja itu dikenal baik - itu bekerja, bukan?
mfinni
Terima kasih banyak!!! itu pasti KVM. Putuskan sambungan Video dan pasang Monitor secara langsung dan server berjalan kembali dengan lancar. Setelah OS dimuat, saya menancapkan kembali KVM. Saya pikir masalahnya disebabkan ketika saya tidak sengaja menyentuh kabel di belakang server. Sistem berhenti dan hanya bereaksi terhadap saran ini.
1
Adakah yang tahu bagaimana KVM menyebabkan hal ini?
TheLQ
@TheLQ Perangkat KVM tingkat konsumen yang murah menjadi penyebabnya di sini. Mungkin juga ada masalah dengan keyboard.
ewwhite