Bagaimana Anda memonitor server pemantauan?

14

Jadi kami menjalankan Groundworks (dengan Nagios) pada CentOS untuk memantau berbagai server dan proses kami. Saya sudah mengaturnya untuk secara otomatis mengirim email dan teks SMS ketika keadaan mencapai keadaan PERINGATAN atau KRITIS. Biasanya ini bekerja dengan sempurna. Namun, dua kali kami mengalami masalah dengan Postfix di server itu di mana Postfix memutuskan untuk berhenti mengirim email. Waktu terbaru berlangsung 4 hari karena tidak ada dari kita yang memperhatikan.

Itu membawa saya ke pertanyaan penting: bagaimana saya bisa memonitor server pemantauan saya?

organikveggie
sumber
5
Quis custodiet ipsos custodes?
James L
Heh. Juvenal. Dimainkan dengan baik.
organicveggie
Siapa yang Melihat Para Penjaga? : D
Florent Courtay
1
@ organicveggie, Server pemantauan juga merupakan server ... Masalah apa yang akan Anda hadapi dengan menggunakan server pemantauan untuk memantau server pemantauan?
Pacerier

Jawaban:

12

Dengan server pemantauan kedua, tentu saja. Yang kedua bisa jauh lebih sederhana, karena yang perlu dilakukan hanyalah memantau yang pertama. Dan itu harus dipantau oleh sistem pemantauan utama pada gilirannya, tentu saja.

Jika grup Anda adalah bagian dari organisasi yang lebih besar dengan infrastruktur TI terpisah, Anda mungkin dapat mengatur layanan pemantauan grup lain untuk mengawasi Anda.

Anda juga bisa memastikan server mengirim pesan "tidak apa-apa" setiap hari, dan biasakan mencarinya. (Itu hanya efektif jika Anda belum kewalahan dengan pesan rutin, tentu saja.)

mattdm
sumber
14

Orang lain menyarankan untuk mengirim pesan biasa yang mengatakan bahwa semuanya baik-baik saja, tetapi secara pribadi saya tidak setuju dengan itu. Pemantauan harus diam kecuali ada masalah, dan jangan pernah mengandalkan pengguna yang menyadari ada sesuatu yang salah, seperti "Oh, saya belum mendapatkan email harian itu dalam beberapa hari." Terutama jika Anda memiliki lebih dari satu orang menanggapi peringatan, masing-masing mungkin berpikir bahwa orang lain telah menghapus pesan "Aku baik-baik saja" harian.

Kami memiliki layanan eksternal (yang jumlahnya ratusan, tetapi kami menggunakan wormly ) untuk melakukan pemeriksaan HTTP dari server pemantauan kami untuk memastikan bahwa itu sudah habis dan dapat mencapai Internet. Itulah perhatian utama kami untuk memantaunya. Kemudian server Nagios kami memantau semua server Nagios klien kami.

Tapi, Anda memunculkan poin yang bagus. Kami mungkin harus menambahkan URL HTTP yang memeriksa antrian postfix dan jika itu menunjukkan jumlah pesan yang tidak biasa, yang mungkin berarti ada antrian di dalamnya , kemudian naikkan lansiran. Opsi lain adalah menggunakan metode yang berbeda untuk peringatan, misalkan agen pengiriman SMS non-SMTP serta SMTP yang saat ini kami gunakan.

Namun dalam kasus kami, saya tidak dapat mengingat bahwa server email kami pernah mati. Tentu saja, semua yang digunakan server mail adalah mengirimkan peringatan Nagios, sehingga konfigurasinya sangat sederhana dan hampir tidak pernah berubah.

Sean Reifschneider
sumber
2
Pesan OK biasa tidak begitu berguna: Anda tidak bisa mengkondisikan seseorang untuk melakukan tindakan tanpa adanya stimulus.
Tim Williscroft
@Tim: Maaf, tetapi "tidak adanya stimulus" tidak menggambarkan situasi di mana email yang diantisipasi tidak diterima. Dalam kasus seperti itu, saya yakin saya akan "terstimulasi" untuk menyelidiki mengapa pesan itu tidak sampai. Tapi mungkin itu hanya aku. :)
Steven Monday
1
Saya pikir saya menulis menggunakan istilah psikologis yang tidak berarti apa yang Anda pikirkan. Psikologi perilaku, dan psikologi penerbangan memiliki banyak hal untuk diceritakan oleh para insinyur sistem. Lapangan ini berkembang pesat dalam Perang Dunia II untuk mendapatkan kru berusia 18-20 tahun untuk menerbangkan pesawat canggih tanpa menabrak, dan masih memiliki perhatian yang tersisa untuk tugas militer mereka yang sebenarnya. Itu sebabnya pesawat memiliki lampu peringatan utama, bukan lampu "semuanya baik-baik saja". TLDR (Saya tidak berpikir kata itu berarti apa yang Anda pikirkan artinya)
Tim Williscroft
1
Saya sangat berpendapat bahwa sistem tidak boleh membuat suara kecuali ada sesuatu yang perlu perhatian dari manusia. Kami memiliki perhatian terbatas, dan komputer dapat dengan mudah membanjiri kami dengan sedikit kesalahan seperti "Saya hidup!". Plus, hal-hal yang muncul yang tidak menunjukkan masalah menempatkan orang dalam pikiran mengabaikan hal-hal. Saya bekerja sangat keras untuk memastikan bahwa ketika sesuatu menimpa manusia, itu adalah sesuatu yang benar-benar perlu mereka lihat. Saya bekerja dengan seseorang yang memiliki semua jenis log yang datang kepadanya setiap hari yang dia review. Tentu saja, dia sangat sibuk sehingga dia tidak bisa pergi makan siang ...
Sean Reifschneider
1
Saya setuju bahwa layanan tidak boleh mengirim terlalu banyak pesan atau orang dengan cepat mulai mengabaikannya. Namun, jika sistem pemantauan diatur dengan benar, Anda seharusnya tidak mendapatkan banyak pesan. Tentu saja, kami memiliki kebijakan tentang mengakui peringatan dari Groundworks / Nagios, yang secara efektif menghentikan pesan untuk jangka waktu tertentu. Jika pemadaman jangka panjang, kami menonaktifkan pemantauan untuk sistem atau layanan. Akibatnya, pesan "I'm Alive" harian sebenarnya cukup masuk akal.
organicveggie
5

Jelas postfix Anda juga harus dipantau, tapi itu topik lain;)

Saya menggunakan plugin pemeriksa Nagios untuk Firefox , selalu dijalankan di status bar di komputer mana pun yang saya gunakan secara teratur.

Selain itu, saya memiliki skrip khusus di host luar yang mengirim host nagios dan mengirim SMS jika tidak merespons ping.

Sejauh ini (5+ tahun) bekerja dengan baik (mengetuk kayu).

Aleksandar Ivanisevic
sumber
2

Untuk memantau pemantauan server (nagios dalam kasus kami), paket Pingdom gratis atau dasar berfungsi dengan baik.

BXAtWork
sumber
Saran yang bagus Namun dalam kasus ini, server pemantauan kami tidak dapat diakses di luar firewall. Jadi Pingdom dan Alertfox tidak benar-benar bekerja untuk kita.
organicveggie
1

Hal pertama: Biarkan ia mengirim pesan "Saya hidup" sekali atau dua kali sehari. Kedua, saya menjalankan mesin lama hanya untuk tujuan ini, yang memiliki modem GSM lain, UPS kecil dll. Dan koneksi khusus (langsung) ke server pemantauan utama. Yang ini juga membantu dengan poin tiga: Pastikan Anda memeriksa status sistem pemantauan Anda secara teratur. Sistem pemantauan bantu kecil menampilkan halaman status sistem utama di kantor saya sepanjang waktu.

Sven
sumber
1

Jika server Pemantau Anda dapat dijangkau dari internet, Anda harus memantaunya melalui penyedia eksternal (mis. Websitepulse et. Al.).

tex
sumber