Pengujian perangkat keras otomatis untuk server HP?

9

Sebagai bagian dari server penyedia kami menjalankan HP Insight Diagnostics untuk menguji perangkat keras. Ini adalah proses manual. Adakah cara mengotomatiskan jalannya Insight Diagnostics?

Ada perangkat lunak hpdiags dengan opsi "-rd:" "Jalankan diagnosis dari semua perangkat yang dapat didiagnosis." Dari pengujian saya ini tidak banyak membantu (hanya membaca info SMART dari disk). Adakah yang lebih beruntung dengan itu?

Perangkat keras: BladeCenter c7000 dengan blade HP ProLiant BL460c, DL360s.

OS: ESXi dan Ubuntu.

Mark Wagner
sumber
2
Jawaban singkatnya adalah saya tidak repot-repot melakukannya di lingkungan yang besar. Pemantauan dan diagnostik onboard sudah cukup. Tetapi dapatkah Anda memberikan beberapa informasi tentang model server yang Anda gunakan? Dan mungkin sistem operasi yang terlibat.
ewwhite
Saya memperbarui tiket dengan info yang diminta.
Mark Wagner
Apakah Anda menginstal versi ESXi khusus HP? Apakah Anda menginstal Agen Manajemen HP pada sistem Ubuntu? Generasi manakah yang merupakan server? G6? G7? Gen8?
ewwhite
Agen manajemen HP diinstal pada ESXi dan Ubuntu. Servernya adalah Gen8 dan akan menjadi Gen9.
Mark Wagner
8
I updated the ticket with the requested info- Itu membuatku tertawa. Ini bukan helpdesk.
joeqwerty

Jawaban:

8

Jadi, saya akan mengajukan pertanyaan lain:

Mengapa perlu menjalankan diagnostik perangkat keras HP Insight di server sebelum melakukan penyediaan?

Dalam komentar saya di atas, saya menunjukkan bahwa ada sedikit keuntungan dengan melakukan ini di lingkungan HP ProLiant besar. Saya harus mengklarifikasi pemikiran saya tentang itu ...

Untuk frekuensi yang menurun, mari kita lihat jenis masalah yang biasanya Anda temui:

  • Array penyimpanan dan disk : Pengontrol RAID akan melapor ke OS, log, SNMP, email, ILO dan menyalakan lampu cantik untuk menunjukkan kesehatan.

  • RAM : Proses POST akan mendeteksi status RAM, serta sistem yang melapor ke OS, log, SNMP, email, ILO dan menyalakan indikator LED pada panel depan System Insight Display (SID) . Juga, saya bukan penggemar proses burn-in RAM karena deteksi kesalahan sistem ini sudah kuat.

  • Thermal dan kipas : Suhu server dan kecepatan kipas diatur oleh ILO. Ada 30+ sensor suhu pada sistem ini , sehingga sistem pendinginnya sangat efisien. Ini masih melaporkan ke OS, log, SNMP, email dan pada SID.

  • Catu Daya : Status PSU dilaporkan ke OS, log, SNMP, email dan pada SID, serta lampu indikator aktual pada unit catu daya yang sebenarnya.

  • Kesehatan keseluruhan : Ini mudah dinilai dari pandangan sekilas dengan tampilan SID, selain LED Kesehatan Internal dan Kesehatan Eksternal. Ini juga dilaporkan ke log server, SNMP, email dan ILO.

masukkan deskripsi gambar di sini

Saya tidak dapat memikirkan kondisi apa pun yang akan ditemukan pra-penempatan yang tidak / tidak dapat dilaporkan selama runtime atau pasca pemasangan OS.

Putaran diagnostik biasanya tidak akan menemukan apa pun ketika dijalankan pada sistem tanpa masalah yang jelas sebelumnya. Ini terutama karena server perlu POST dan boot ke utilitas atau firmware Penyediaan Cerdas untuk menjalankan utilitas.

Dengan kata lain, setiap item yang akan menjadi "SPOF" serius untuk server mungkin akan mencegah sistem dari menjalankan diagnosa sendiri.

Item kegagalan yang paling umum masih cukup kuat; disk harus dalam RAID dan hot-swappable. Kipas dan catu daya juga dapat ditukar dengan panas. RAM Anda memiliki ambang ECC dan ada opsi cadangan online untuk sebagian besar platform ProLiant. Tidak ada yang dapat Anda lakukan untuk menyebabkan kegagalan pada komponen ini dengan menjalankan diagnostik. Tambahkan fakta bahwa Anda menggunakan enklosur Blade HP C7000, yang memiliki redundansi internal , dan insiden kegagalan Anda harus sangat rendah.

putih
sumber
Masalahnya adalah jika (a) kesalahan terdeteksi setelah instalasi OS (mis. Server sedang dalam produksi), (b) perbaikan tidak dapat dilakukan secara online atau komponen yang gagal adalah SPOF untuk server, dan (c) server adalah SPOF, lalu Anda akan mengalami downtime (baik segera atau ketika sistem dimatikan untuk memperbaiki). Untuk mencegah kesimpulan, Anda perlu mencegah salah satu syarat. Saya mencari (a) dengan mendeteksi kesalahan sebelum produksi. Saya menghargai ketelitian Anda dalam merinci kemampuan pelaporan tetapi saya mencari untuk mencegah perlunya melaporkannya karena itu tidak terjadi.
Mark Wagner
Lingkaran diagnostik HP kemungkinan tidak akan menemukan apa-apa, mengingat server perlu POST dan mem-boot ke utilitas atau Penyediaan Cerdas untuk menjalankan diagnostik. Item kegagalan yang paling umum cukup kuat; disk, kipas, dan catu daya hot-swappable, RAM memiliki ambang ECC. Tidak ada yang dapat Anda lakukan untuk menyebabkan kegagalan pada komponen ini.
ewwhite