Saya telah menggunakan munin di beberapa server selama bertahun-tahun dengan sukses besar, namun dengan lebih dari 100 munin-node dan ketika ada beban pada klien, prosesnya adalah waktu habis.
Saya telah membuat beberapa perubahan skala pada pekerjaan cron, dan jumlah proses klien, dan mengurangi jumlah plugin yang berjalan dll. Tetapi saya telah memutuskan untuk mencari alternatif yang memiliki arsitektur yang lebih skalabel.
Setiap saran atau pengalaman akan diterima. Saya pada dasarnya tertarik pada metrik server yang taksi dapat digunakan untuk perencanaan kapasitas, dan mendiagnosis penggunaan sumber daya. (kami memiliki nagios untuk mengingatkan)
Jawaban:
Sepertinya Anda memiliki dua masalah
Saya telah menggunakan Munin di masa lalu, tetapi saya saat ini menggunakan collectd . Para penulis collectd telah menaruh banyak pemikiran dan upaya untuk menyelesaikan masalah ini. Mereka memiliki sistem yang dirancang dengan baik untuk menulis data ke file RRD yang memastikan Anda tidak kehilangan data dan dapat menghasilkan grafik terbaru. Ada juga dukungan untuk RRDCacheD. Daemon dan plugin resmi ditulis dalam C, sehingga mereka menggunakan sedikit memori atau waktu CPU. Pada sistem klien saya menggunakan kurang dari 2MB RAM dan sekitar seperempat detik waktu CPU setiap menit. Di server pemantauan saya menggunakan 20MB RAM dan dua pertiga dari waktu CPU setiap menit. Perlu diingat bahwa semua metrik saya dikumpulkan dan dikirim ke server pemantauan saya setiap sepuluh detik, bukan pada interval menit seperti munin.
sumber
Meskipun menjadi alat yang hebat, Munin dan frontend RRDTool lainnya (seperti Cacti atau Ganglia) telah mengetahui masalah i / o dan sulit untuk diukur ketika Anda memonitor kumpulan node.
Ada beberapa teknik untuk mengatasi bottleneck i / o ini. Salah satu teknik ini adalah untuk menyebar tulis ke sejumlah besar disk untuk mengurangi i / o di setiap disk. Di sisi lain, banyak sysadmin menggunakan sistem file tmpfs untuk menangani masalah ini. RRDCached juga merupakan opsi yang baru dan bagus untuk mengatasi hal ini dan saya sarankan Anda melihat slide ini .
Saya tidak begitu akrab dengan Munin, tetapi Cacti memiliki plugin Boost . Plugin ini menyimpan data dalam memori dan melakukan pembaruan massal dan sesuai permintaan ke disk, alih-alih menulis individual, sehingga mengurangi i / o. Saya cukup yakin bahwa Munin juga memiliki sesuatu seperti ini.
Jika Anda mampu membelinya, disk SSD juga merupakan opsi yang baik.
Last but not least, Anda juga bisa melihat Reconnoiter . Recconoiter adalah alat deteksi kesalahan dan grafik / tren terbaru. Tidak seperti alat yang paling trending, Reconnoiter bukan RRDTool dan mencoba untuk menyelesaikan masalah khusus ini. Saya tidak menggunakan Reconnoiter dalam produksi, tetapi saya telah melakukan beberapa tes, dan meskipun masih sedikit "hijau", terlihat sangat menjanjikan, terutama mengenai skalabilitasnya.
Semoga ini membantu!
sumber
Lihat Zabbix . Ini adalah salah satu alat pemantauan kinerja Open Source terbaik di luar sana. Ini berskala baik dan telah digunakan di lingkungan dengan ribuan komputer.
sumber
Marco Ramos memberikan beberapa saran yang solid. Saya ingin menambahkan beberapa klarifikasi, namun: masalah besar dengan munin adalah jadwal pengumpulan 5 menit sudah diperbaiki. Jika semua node tidak memberikan hasil dalam jendela 5 menit, Anda mulai putus. Ini adalah masalah terbesar dengan munin.
Alat berbasis rrdtool lainnya seperti Ganglia tidak dikunci dalam jendela pembaruan 5 menit yang sama ini karena mereka tidak mensurvei semua sumber data dengan cara yang sama berurutan seperti yang dilakukan munin.
Saya akan merekomendasikan Anda melihat Ganglia karena umumnya tampaknya berskala baik (meskipun Anda perlu mematikan pengumpulan data multicast untuk instalasi ganglia besar). Saya curiga Anda bisa menggunakan ganglia dalam waktu yang cukup lama sebelum Anda perlu mulai khawatir tentang rrdtool menjadi titik tersedak. Pada titik itu Anda dapat melakukan berbagai hal yang disarankan Marco, seperti menggunakan drive SSD.
sumber
Saya mengganti Munin dengan Ganglia, Munin membunuh server saya jadi saya akan mencoba Ganglia dan melihat bagaimana skalanya.
sumber