Salam pembuka,
Saya ingin bertanya pendapat kolektif dan pandangan tentang sistem pemantauan terdistribusi, apa yang Anda gunakan dan apa yang Anda ketahui yang mungkin mencentang kotak saya?
Persyaratannya cukup kompleks;
Tidak ada titik kegagalan. Betulkah. Aku benar-benar serius! Harus dapat mentolerir kegagalan simpul tunggal / ganda, baik 'master' dan 'pekerja' dan Anda dapat berasumsi bahwa tidak ada lokasi pemantauan ("situs") yang memiliki banyak node di dalamnya, atau berada di jaringan yang sama. Oleh karena itu ini mungkin mengesampingkan teknik HA tradisional seperti DRBD atau Keepalive.
Logika terdistribusi, saya ingin menggunakan 5+ node di beberapa jaringan, dalam banyak pusat data dan di beberapa benua. Saya ingin tampilan "Mata Burung" dari jaringan dan aplikasi saya dari perspektif pelanggan saya, poin bonus untuk logika pemantauan tidak menjadi macet ketika Anda memiliki 50+ node, atau bahkan 500+ node.
Kebutuhan untuk dapat menangani sejumlah pemeriksaan host / layanan yang cukup masuk akal, ala Nagios, untuk angka rata-rata mengasumsikan 1500-2500 host dan 30 layanan per host. Akan sangat bagus jika menambahkan lebih banyak node pemantauan memungkinkan Anda untuk skala relatif linier, mungkin dalam 5 tahun ke depan saya mungkin ingin memantau 5000 host dan 40 layanan per host! Menambahkan dari catatan saya di atas tentang 'logika terdistribusi' akan menyenangkan untuk mengatakan:
- Dalam keadaan normal, pemeriksaan ini harus dijalankan pada $ n atau n% dari node pemantauan.
- Jika kegagalan terdeteksi, jalankan pemeriksaan pada $ n atau n% dari node lainnya, korelasikan hasilnya dan kemudian gunakan untuk memutuskan apakah kriteria telah dipenuhi untuk mengeluarkan peringatan.
Grafik dan fitur ramah manajemen. Kami perlu melacak SLA kami dan mengetahui apakah aplikasi 'sangat tersedia' kami naik 24x7 agak berguna. Idealnya solusi yang Anda usulkan harus melaporkan "out of the box" dengan minimal faff.
Harus memiliki API atau sistem plugin yang solid untuk mengembangkan pemeriksaan pesanan khusus.
Perlu masuk akal tentang peringatan. Saya tidak ingin selalu tahu (via SMS, jam 3 pagi!) Bahwa satu node pemantauan memperhitungkan router inti saya sedang down. Saya tidak ingin tahu apakah persentase didefinisikan dari mereka setuju bahwa sesuatu yang funky yang terjadi;) Pada dasarnya apa yang saya bicarakan di sini adalah "kuorum" logika, atau penerapan kewarasan kegilaan didistribusikan!
Saya bersedia mempertimbangkan opsi komersial dan open source, meskipun saya lebih suka menghindari perangkat lunak yang harganya jutaan poundsterling :-) Saya juga bersedia menerima mungkin tidak ada yang ada di luar sana yang menandai semua kotak itu, tetapi ingin bertanya kepada kolektif itu.
Ketika berpikir tentang memonitor node dan penempatannya, ingatlah bahwa sebagian besar dari ini akan didedikasikan server pada jaringan ISP acak dan dengan demikian sebagian besar di luar kendali saya. Solusi yang mengandalkan umpan BGP dan kejenakaan jejaring kompleks lainnya sepertinya tidak cocok.
Saya juga harus menunjukkan bahwa saya telah mengevaluasi, menyebarkan atau banyak menggunakan / menyesuaikan sebagian besar rasa open source di masa lalu termasuk Nagios, Zabbix dan teman-teman - mereka benar-benar bukan alat yang buruk tetapi mereka gagal secara keseluruhan " didistribusikan "aspek, terutama berkaitan dengan logika yang dibahas dalam pertanyaan saya dan peringatan 'cerdas'.
Senang mengklarifikasi poin yang diperlukan. Ceria cowok dan cewek :-)
sumber
Jawaban:
bukan jawaban sebenarnya, tetapi beberapa petunjuk:
Lihat presentasi tentang nagios @ goldman sachs . mereka menghadapi masalah yang Anda sebutkan - redundansi, skalabilitas: ribuan host, juga pembuatan konfigurasi otomatis.
saya memiliki pengaturan nagios yang berlebihan tetapi pada skala yang jauh lebih kecil - 80 server, ~ total 1k layanan. satu server master khusus, satu server slave yang menarik konfigurasi dari master secara berkala beberapa kali sehari. kedua server mencakup pemantauan mesin yang sama, mereka melakukan pemeriksaan silang kesehatan satu sama lain. saya menggunakan nagios sebagian besar sebagai kerangka kerja untuk memohon pemeriksaan khusus produk khusus [sekelompok pekerjaan cron yang menjalankan skrip yang melakukan 'kontrol aliran buatan', hasil log masuk ke sql, nrpe plugins ware memeriksa untuk keberhasilan / kegagalan eksekusi dari mereka dalam x menit terakhir]. semua bekerja dengan sangat baik.
logika kuorum Anda kedengarannya bagus - sedikit mirip dengan 'aliran buatan' saya - pada dasarnya berjalan, ipmplement diri Anda; -]. dan minta nrpe memeriksa beberapa jenis flag [atau sql db dengan timestamp-status] bagaimana keadaannya.
Anda mungkin ingin membangun beberapa hierarki ke skala - Anda akan memiliki beberapa node yang mengumpulkan ikhtisar dari node lain, jangan melihat presentasi dari titik pertama. forging nagios standar untuk setiap pemeriksaan tunggal adalah jumlah yang terlalu banyak pada layanan yang dipantau yang lebih banyak.
untuk menjawab beberapa pertanyaan:
sumber
Apa yang Anda minta terdengar sangat mirip dengan apa yang telah dilakukan Shinken untuk Nagios.
Shinken adalah penulisan ulang Nagios.
Ini harus menjadi bahan pertimbangan.
Bersulang
sumber