Bagaimana cara saya mengirim server HP saya ke email saya ketika drive gagal?

11

Idealnya, dengan instalasi sesederhana mungkin dan tanpa perlu me-reboot server. Terutama DL380 G5'sjika itu membantu.

DrZaiusApeLord
sumber
Malu mereka bukan G7, atau Anda bisa menggunakan HP Insight Manager.
Tom O'Connor
Apakah server Anda menjalankan Windows atau Linux?
Tom O'Connor
Sistem operasi apa yang Anda jalankan di server ini?
ewwhite
Mereka semua 2003 atau 2008 vanilla dan R2. Saya bermain dengan SIM tetapi tidak dapat berbicara dengan G5 saya.
DrZaiusApeLord
SIM masih harus kompatibel dengan G5 ProLiants. Apakah Anda memiliki agen yang diinstal ketika Anda mencoba sebelumnya?
ewwhite

Jawaban:

16

Ini sedikit tergantung pada sistem operasi yang Anda jalankan di server, tetapi secara umum, dimungkinkan untuk mendapatkan peringatan dari server HP ProLiant dan pengontrol RAID Smart Array.

Daftar lengkap driver dan dukungan perangkat lunak untuk sistem DL380 G5 Anda tercantum di sini .

SNMP dan solusi pemantauan adalah pendekatan terbaik ... Tapi Anda bisa menambahkannya dengan beberapa alat HP. HP menawarkan HP Systems Insight Manager , yang tersedia untuk diunduh dan juga dilengkapi dengan server. Ini sangat ideal untuk koleksi server. Jika Anda mencari peringatan satu kali tanpa membangun infrastruktur manajemen atau pemantauan, Anda dapat menginstal Agen Manajemen HP (alias Paket Dukungan ProLiant ).

Untuk sistem Linux mandiri, saya akan meminta agen mengirim perangkap melalui email. Saya biasanya akan mengkonfigurasi paket dukungan dengan default atau bundel khusus , lalu edit /opt/hp/hp-snmp-agents/cma.confdan ubah trapemailbaris untuk menunjuk ke alamat penerima:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' [email protected]

Jika Anda menjalankan Linux dan tidak ingin menginstal suite manajemen HP lengkap, Anda dapat mengembangkan skrip di sekitar utilitas cciss_vol_status untuk menanyakan status pengontrol / disk. Juga lihat: Menginstal Agen HP di OpenFiler

putih
sumber
ada cara elegan untuk menguji peringatan untuk kegagalan array RAID, selain menarik drive keluar dari slot? Saya punya beberapa ProLiant DL360 G7server, dan pengaturan SIM HP untuk pemantauan.
Banjer
Tidak yang saya tahu. Agen Wawasan pasti bekerja. Jika Anda dapat melihat status larik melalui utilitas hpacucli dan Anda tahu Anda menerima peringatan di HP SIM, saya pikir adil untuk menganggap segala sesuatunya akan berfungsi.
ewwhite
3

Saya menggunakan program ringan yang @ewwite sebutkan dalam jawabannya: cciss_vol_status

Jika Anda mengikuti petunjuk INSTALL yang menyertainya, skrip ditempatkan di /usr/local/bin/cciss_vol_status.

Berikut ini adalah skrip wrapper yang saya gunakan untuk menangkap output cciss_vol_status, dan mengirim email jika ada larik yang berstatus GAGAL.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Panggil skrip di atas dalam cron. Saya menjalankan cek setiap dua menit:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Kami benar-benar menggunakan HP System Insight Manager untuk memeriksa apakah HP kami aktif dan berjalan, tetapi tidak ada yang lebih dari itu. Saya menemukan agen Linux berlebihan bagi kami, karena kami memiliki solusi pemantauan lain, jadi skrip di atas melayani tujuan khusus dengan baik.

MEMPERBARUI

Hanya tip pemecahan masalah jika Anda mengalami ini. Skrip ini terbukti membantu pagi ini ketika saya mendapat email tentang susunan yang gagal dengan:

Batas kotor cache tercapai

Perangkat menjadi hanya-baca dan tidak terlihat di /proc/partitions. Saya reboot server dan melihat pesan-pesan ini saat boot:

Drive logis dinonaktifkan karena kemungkinan kehilangan data. Pilih "F1" untuk melanjutkan dengan drive logis dinonaktifkan. Pilih "F2" untuk menerima kehilangan data dan untuk mengaktifkan kembali drive logis

Saya memilih F2 dan RAID baik-baik saja dan dipasang pada saat boot.

Banjer
sumber
1

instal smartmontools. Mail Anda SEBELUM drive gagal.

Stephan
sumber
2
~ 30% dari waktu. SMART bukanlah peluru perak.
HopelessN00b