Saya memiliki sistem HP ProLiant DL360 G7 baru yang menunjukkan masalah yang sulit direproduksi. Server menggantung secara acak di layar " Daya dan Kalibrasi Thermal dalam Progress ... " selama proses POST . Ini biasanya mengikuti boot-hangat / reboot dari sistem operasi yang diinstal.
Sistem berhenti tanpa batas pada titik ini. Menerbitkan ulang atau memulai-awal melalui kontrol daya ILO 3 membuat sistem boot secara normal tanpa insiden.
Ketika sistem berada dalam kondisi ini, antarmuka ILO 3 dapat diakses sepenuhnya dan semua indikator kesehatan sistem baik-baik saja (semuanya hijau). Server berada di pusat data yang dikendalikan iklim dengan koneksi daya ke PDU. Suhu sekitar adalah 64 ° F / 17 ° C. Sistem ditempatkan dalam loop pengujian komponen 24 jam sebelum penerapan tanpa kegagalan.
Sistem operasi utama untuk server ini adalah VMWare ESXi 5. Kami awalnya mencoba 5.0 dan kemudian versi 5.1. Keduanya dikerahkan melalui boot PXE dan kickstart. Selain itu, kami sedang menguji dengan instalasi baremetal Windows dan Red Hat Linux.
Sistem HP ProLiant memiliki serangkaian opsi BIOS yang komprehensif. Kami telah mencoba pengaturan default selain profil kinerja tinggi Statis. Saya telah menonaktifkan layar splash boot dan hanya mendapatkan kursor berkedip pada saat itu versus tangkapan layar di atas. Kami juga telah mencoba beberapa "praktik terbaik" VMWare untuk konfigurasi BIOS . Kami telah melihat penasehat dari HP yang sepertinya menguraikan masalah yang serupa , tetapi tidak memperbaiki masalah khusus kami.
Mencurigai masalah perangkat keras, saya meminta vendor mengirim sistem yang sama untuk pengiriman hari yang sama. Server baru adalah bangunan yang sepenuhnya identik dengan pengecualian disk. Kami memindahkan disk dari server lama ke yang baru. Kami mengalami masalah booting acak yang sama pada perangkat keras pengganti.
Saya sekarang memiliki kedua server berjalan secara paralel. Masalahnya mengenai sepatu bot secara acak. Sepatu bot dingin sepertinya tidak memiliki masalah. Saya melihat beberapa pengaturan BIOS yang lebih esoteris seperti menonaktifkan Turbo Boost atau menonaktifkan fungsi kalibrasi daya sepenuhnya. Saya bisa mencoba ini, tetapi mereka tidak perlu.
Adakah pikiran?
--edit--
Detail sistem:
- DL360 G7 - 2 x X5670 CPU Hex-Core
- RAM 96GB (DIMM Tegangan Rendah 12 x 8GB)
- Hard Drive SAS 2 x 146GB 15k
- 2 x 750W catu daya yang berlebihan
Semua firmware terbaru pada Paket Layanan HP terbaru untuk rilis DVD ProLiant.
Menelepon HP dan menjalin interwebz, saya telah melihat menyebutkan interaksi ILO 3 yang buruk, tetapi ini terjadi dengan server pada konsol fisik juga. HP juga menyarankan sumber daya, tetapi ini ada di rak pusat data yang berhasil memberi daya pada sistem produksi lainnya.
Apakah ada kemungkinan bahwa ini bisa menjadi interaksi yang buruk antara DIMM bertegangan rendah dan catu daya 750W? Server ini harus merupakan konfigurasi yang didukung.
sumber
Jawaban:
Jadi, setelah membawa sistem ketiga ke dalam campuran, dan mengalami masalah yang sama, kami mulai mempertanyakan lingkungan. Saya menggali salinan Panduan Pemecahan Masalah Server HP ProLiant dan menemukan diagram alur masalah POST yang ditunjukkan di bawah ini.
Dengan hati-hati menjalankan langkah-langkah dalam bagan, kami menyadari bahwa satu konstanta di semua server adalah sakelar KVM yang melekat pada kereta luncur pusat data. Ini adalah KVM berkemampuan USB kelas konsumen. Sesuai node yang disorot dalam diagram alur, Apakah Anda tahu KVM yang baik? , Saya tidak bisa menjawab dengan meyakinkan.
Jadi, kami mencabut server dari sakelar KVM dan menjalankan boot otomatis,
sleep 300; reboot
berurutan dirc.local
. Server tidak memiliki masalah dengan ini, terlepas dari DIMM normal, DIMM tegangan rendah, watt PSU, dll.Ini semua adalah hasil dari interaksi yang buruk dengan sakelar USB KVM. Berdasarkan bahwa ini adalah konsol, itu memastikan kita akan melihat kegagalan jika kita mencarinya. Cukup memuaskan ...
sumber