Saya perlu mengganti munin dengan sesuatu yang lebih scalable [ditutup]

8

Saya telah menggunakan munin di beberapa server selama bertahun-tahun dengan sukses besar, namun dengan lebih dari 100 munin-node dan ketika ada beban pada klien, prosesnya adalah waktu habis.

Saya telah membuat beberapa perubahan skala pada pekerjaan cron, dan jumlah proses klien, dan mengurangi jumlah plugin yang berjalan dll. Tetapi saya telah memutuskan untuk mencari alternatif yang memiliki arsitektur yang lebih skalabel.

Setiap saran atau pengalaman akan diterima. Saya pada dasarnya tertarik pada metrik server yang taksi dapat digunakan untuk perencanaan kapasitas, dan mendiagnosis penggunaan sumber daya. (kami memiliki nagios untuk mengingatkan)

Tom H
sumber

Jawaban:

8

Sepertinya Anda memiliki dua masalah

  1. Di server pemantauan Anda, merekam metrik untuk banyak server memerlukan lebih banyak i / o acak daripada yang dapat disediakan oleh penyimpanan Anda. Bahkan jika semua metrik Anda ditulis ke disk, server mungkin terlalu kelebihan untuk benar-benar menghasilkan grafik dari mereka.
  2. Pada klien Anda yang dipantau, plugin yang mengumpulkan metrik terlalu CPU dan memori dan tidak selesai mengumpulkan data pada saat klien mengalami beban berat.

Saya telah menggunakan Munin di masa lalu, tetapi saya saat ini menggunakan collectd . Para penulis collectd telah menaruh banyak pemikiran dan upaya untuk menyelesaikan masalah ini. Mereka memiliki sistem yang dirancang dengan baik untuk menulis data ke file RRD yang memastikan Anda tidak kehilangan data dan dapat menghasilkan grafik terbaru. Ada juga dukungan untuk RRDCacheD. Daemon dan plugin resmi ditulis dalam C, sehingga mereka menggunakan sedikit memori atau waktu CPU. Pada sistem klien saya menggunakan kurang dari 2MB RAM dan sekitar seperempat detik waktu CPU setiap menit. Di server pemantauan saya menggunakan 20MB RAM dan dua pertiga dari waktu CPU setiap menit. Perlu diingat bahwa semua metrik saya dikumpulkan dan dikirim ke server pemantauan saya setiap sepuluh detik, bukan pada interval menit seperti munin.

sciurus
sumber
2
munin sekarang memiliki dukungan awal untuk rrdcached. Dibutuhkan sedikit usaha ekstra daripada pemasangan default. Ini bukan suara untuk atau menentang munin / collectd, saya hanya menambahkan ini untuk membantu siapa pun yang berjuang dengan pengaturan munin dan tidak ada kelonggaran tentang perubahan sistem.
dfc
3

Meskipun menjadi alat yang hebat, Munin dan frontend RRDTool lainnya (seperti Cacti atau Ganglia) telah mengetahui masalah i / o dan sulit untuk diukur ketika Anda memonitor kumpulan node.

Ada beberapa teknik untuk mengatasi bottleneck i / o ini. Salah satu teknik ini adalah untuk menyebar tulis ke sejumlah besar disk untuk mengurangi i / o di setiap disk. Di sisi lain, banyak sysadmin menggunakan sistem file tmpfs untuk menangani masalah ini. RRDCached juga merupakan opsi yang baru dan bagus untuk mengatasi hal ini dan saya sarankan Anda melihat slide ini .

Saya tidak begitu akrab dengan Munin, tetapi Cacti memiliki plugin Boost . Plugin ini menyimpan data dalam memori dan melakukan pembaruan massal dan sesuai permintaan ke disk, alih-alih menulis individual, sehingga mengurangi i / o. Saya cukup yakin bahwa Munin juga memiliki sesuatu seperti ini.

Jika Anda mampu membelinya, disk SSD juga merupakan opsi yang baik.

Last but not least, Anda juga bisa melihat Reconnoiter . Recconoiter adalah alat deteksi kesalahan dan grafik / tren terbaru. Tidak seperti alat yang paling trending, Reconnoiter bukan RRDTool dan mencoba untuk menyelesaikan masalah khusus ini. Saya tidak menggunakan Reconnoiter dalam produksi, tetapi saya telah melakukan beberapa tes, dan meskipun masih sedikit "hijau", terlihat sangat menjanjikan, terutama mengenai skalabilitasnya.

Semoga ini membantu!

Marco Ramos
sumber
Zabbix juga tidak menggunakan RRD, ia menggunakan backend seperti MySQL atau Postgres. Jika template Anda benar dan tidak memantau hal-hal yang tidak berguna, Anda dapat dengan mudah mengukur.
coredump
2

Lihat Zabbix . Ini adalah salah satu alat pemantauan kinerja Open Source terbaik di luar sana. Ini berskala baik dan telah digunakan di lingkungan dengan ribuan komputer.

Tux Merah
sumber
0

Marco Ramos memberikan beberapa saran yang solid. Saya ingin menambahkan beberapa klarifikasi, namun: masalah besar dengan munin adalah jadwal pengumpulan 5 menit sudah diperbaiki. Jika semua node tidak memberikan hasil dalam jendela 5 menit, Anda mulai putus. Ini adalah masalah terbesar dengan munin.

Alat berbasis rrdtool lainnya seperti Ganglia tidak dikunci dalam jendela pembaruan 5 menit yang sama ini karena mereka tidak mensurvei semua sumber data dengan cara yang sama berurutan seperti yang dilakukan munin.

Saya akan merekomendasikan Anda melihat Ganglia karena umumnya tampaknya berskala baik (meskipun Anda perlu mematikan pengumpulan data multicast untuk instalasi ganglia besar). Saya curiga Anda bisa menggunakan ganglia dalam waktu yang cukup lama sebelum Anda perlu mulai khawatir tentang rrdtool menjadi titik tersedak. Pada titik itu Anda dapat melakukan berbagai hal yang disarankan Marco, seperti menggunakan drive SSD.

Phil Hollenback
sumber
memang, Anda benar, hal yang sama terjadi pada Cacti.
Marco Ramos
0

Saya mengganti Munin dengan Ganglia, Munin membunuh server saya jadi saya akan mencoba Ganglia dan melihat bagaimana skalanya.

luckytaxi
sumber
Bagaimana hasilnya? Saya sendiri tertarik dengan penggantinya ...
thanasisk
Saya lebih suka grafik Munin tetapi Ganglia bekerja dengan baik. Sejak saya meninggalkan pekerjaan, tetapi ketika saya pergi, saya mengganti Munin dengan Ganglia. Dengan rilis terbaru dari Munin, saya cenderung berpikir bahwa mereka mengutak-atik penggunaan memori. Saya tidak akan ragu untuk menggunakan keduanya, itu masalah preferensi saya kira.
luckytaxi