Alat terbaik untuk memantau cadangan, dll. Dan tren statistik dari data itu [ditutup]

9

Saya telah melakukan penelitian tentang nagios, opennms, dan zenoss tetapi saya tidak yakin bahwa saya telah menemukan apa yang saya cari.

Kekuatan pendorong utama bagi saya saat ini adalah dapat memantau cadangan. Ini termasuk mysql, mssql, dan akhirnya beberapa cadangan sistem file.

Kami memiliki alat yang membungkus proses pencadangan untuk berbagai sistem ini dan mengumpulkan statistik. Jadi, barang-barang seperti:

  • jumlah database yang didukung
  • ukuran file cadangan db
  • ukuran file cadangan db terkompresi
  • waktu untuk membuat cadangan
  • waktu untuk zip file

Saya ingin dapat A) memiliki pemberitahuan jika pekerjaan tidak berjalan sesuai jadwal B) dapat menetapkan ambang batas pada statistik yang akan memicu pemberitahuan C) Saya ingin dapat tren dan grafik statistik

Saya berencana mengirim informasi ini ke aplikasi pemantauan melalui HTTP POST. Atau, aplikasi pemantauan dapat menariknya dari file log juga.

Namun, kami akan memiliki proses lain dengan statik "arbitrer" (dari perspektif sistem pemantauan) lainnya yang ingin dipantau dan tren, sehingga fleksibilitas sangat penting.

Alat atau alat juga harus dapat melakukan pemantauan umum dan tren antarmuka jaringan, beban server, dll. Setelah kami mendapatkan pemantauan cadangan di tempat, kami akan ingin memasukkan barang-barang itu juga.

Terima kasih.

Tindak lanjut :

Saya telah memutuskan untuk mencoba yang berikut dalam urutan yang diberikan:

  • Zabbix: sepertinya lebih dari "one stop shop" daripada yang lain dan mudah dipasang di Ubuntu Lucid RC
  • opsview
  • Nagios dg nagvis, pnp4nagios, nagiosgraph
  • plugin cacti w / npc
  • Munin: sedikit bekas luka dari kesederhanaan, tetapi ini mungkin terbukti menjadi berkah dalam jangka panjang

Akan dikirim kembali setelah saya membuat keputusan, mungkin perlu beberapa saat sampai itu terjadi.

Randy Syring
sumber

Jawaban:

4

Daripada menulis solusi pemantauan Anda sendiri, saya sangat menyarankan Anda menggunakan alat yang sudah ada sehingga semua fungsi pemantauan dan peringatan dasar sudah diterapkan. Jika Anda memilih Nagios, Anda akan mendapatkan pemantauan dasar sumber daya server dan jaringan secara gratis, dan plugin berikut akan memberi Anda sebagian besar dari sisa yang Anda butuhkan:

check_file_ages_in_dirs akan memberi tahu Anda apakah ada file cadangan; inilah posting blog yang saya tulis dengan beberapa contoh dasar.

check_file dapat memantau ukuran dan konten file (menggunakan regex), sehingga Anda dapat menampilkan statistik cadangan ke file dan memantaunya.

Satu hal yang tidak akan Anda dapatkan dari Nagios adalah tren dan grafik; Saya sarankan melihat Munin untuk itu, karena mudah diatur dan, seperti Nagios, memiliki tumpukan kontribusi plugin.

gareth_bowles
sumber
Hanya untuk klarifikasi, saya tidak akan menulis alat pemantauan saya sendiri. Pertanyaannya adalah untuk mendapatkan rekomendasi untuk alat pemantauan / tren yang akan diintegrasikan dengan kerangka cadangan / skrip yang saya buat.
Randy Syring
4

ini seharusnya cukup mudah diatur dengan zabbix.

menyetel ambang khusus (dan sangat kuat) mudah - Anda dapat menulis ekspresi apa pun yang Anda suka, jadi sesuatu seperti "beri tahu saya jika lebih dari 3 dari 5 server ini tidak memiliki cadangan yang berhasil" dimungkinkan. Anda juga dapat menggunakan 6 tingkat keparahan berbeda dan eskalasi untuk mencapai pemberitahuan dan peringatan yang fleksibel.

zabbix telah mem-bunlded penyimpanan data dan kemampuan visualisasi - semua data disimpan dalam database, dan untuk membuat grafik metrik tunggal Anda tidak memerlukan konfigurasi apa pun - Anda hanya mendapatkan grafik untuk itu "gratis". untuk penyimpanan jangka panjang & tren rata-rata satu jam dihitung.

Adapun untuk mendapatkan data Anda tentang cadangan ke zabbix, ada beberapa kemungkinan. Anda dapat membacanya dari file, Anda dapat meluncurkan perintah kustom, Anda dapat mendorongnya dari mesin yang dipantau menggunakan utilitas commandline zabbix_sender ... dan mungkin ada beberapa pendekatan yang lebih mungkin.

memperluas mudah - perintah kustom apa pun yang mengembalikan data dapat digunakan untuk mengumpulkan, menyimpan, dan memvisualisasikan data itu.

tentu saja, pemantauan umum sistem operasi, aplikasi, perangkat snmp dan ipmi dan lainnya dimungkinkan.

Richlv
sumber
1

eksekusi

backup diatur oleh backupninja . saya menggunakannya hanya pembungkus untuk skrip bash saya - untuk memiliki log cadangan tunggal. setiap skrip dimulai dengan

 function handle {
         echo Error
         error problem occured
 }
 set -e
 trap handle ERR

jadi saya mendapatkan kesalahan dalam log setiap kali salah satu perintah [misalnya mysqldump atau rsync] gagal.

semua cadangan berakhir di repositori rdiff jadi saya punya n hari peningkatan.

semua cadangan ditransmisikan menggunakan rsync ke server penyimpanan pusat.

pada server penyimpanan semua cadangan diverifikasi setiap hari dan setelah verifikasi data pada disk lokal berhasil, mereka disalin ke drive usb eksternal.

verifikasi

backupninja.log di semua server dipantau oleh nagios. saya memeriksa apakah mereka hanya berisi pesan DEBUG dan INFO. apa pun yang memicu peringatan.

setiap cadangan 'menyentuh' file uji, keberadaan dan kesegaran yang dipantau pada server repositori cadangan pusat dengan nagios.

selain itu, sql dumps lebih kritis diperiksa untuk ukuran mereka [bukan hanya kesegaran] dan kelengkapan [misalnya pada akhir dump mysql saya berharap timestamp segar di

- Pembuangan selesai pada 2010-04-22 23:21:02

semua arsip rdiff diverifikasi setiap hari sebelum data disinkronkan ke drive USB dan sekali lagi setelah disinkronkan. jadi bahkan jika transfer malam terganggu saya akan memiliki repositori yang konsisten hanya pada disk USB. hasil pemeriksaan dicatat ke file konten dan kesegaran mana yang diperiksa oleh nagios.

disk usb diputar setiap minggu dan disimpan secara offline, untuk berjaga-jaga. ini mungkin berlebihan untuk jumlah data yang lebih besar, tetapi berfungsi dengan baik untuk ~ 300GB file / dump yang perlahan-lahan berubah.

tren

saya menggunakan plugin munin kustom sederhana untuk plot ukuran diff / data untuk setiap repositori rdiff.

waktu yang diperlukan untuk mengeksekusi dapat diperiksa dalam log backupninja tetapi untuk sekarang saya tidak peduli tentang hal itu.

pQd
sumber
Terima kasih atas jawabannya. Saya sudah memiliki kerangka kerja yang menangani menjalankan backup (dan tugas-tugas lainnya), yang mengumpulkan statistik, sehingga backupninja akan berlebihan. Nagios tampaknya menjadi konsensus dan kemudian munin atau kaktus menjadi tren.
Randy Syring
1

nagios dapat melakukan trending, tetapi Anda harus menampilkan perfdata ( http://nagios.sourceforge.net/docs/1_0/perfdata.html ) di plugin Anda. Jika Anda menggunakan pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start maka semuanya akan dibuat grafik untuk Anda.

Saya telah menemukan bahwa menggunakan opsview http://www.opsview.org/ jauh lebih mudah daripada mengkonfigurasi nagios dan pnp4nagios. Khususnya jika Anda adalah satu-satunya admin yang mengerti linux di tempat kerja. Opsview adalah nagios dengan webui hebat yang memungkinkan hampir semua tindakan dari browser web. Karena ini adalah nagios, Anda dapat menggunakan semua plugin nagios yang telah Anda gunakan sebelumnya. Alat hebat.

natxo asenjo
sumber
Terima kasih atas komentarnya, saya pikir saya telah mengesampingkan opsview untuk beberapa alasan, tetapi berdasarkan rekomendasi Anda, saya mungkin akhirnya mencobanya sebelum saya beralih ke nagios.
Randy Syring
0

Nagios untuk memberi peringatan, dan Cacti untuk grafik ditambah beberapa skrip shell atau perl akan melakukan apa yang Anda inginkan. Dengan kombinasi keduanya, Anda bisa melakukan apa saja, tergantung pada jumlah usaha yang bersedia Anda lakukan.

solefald
sumber
Apakah Anda pikir akan lebih baik untuk "mendorong" statistik ke nagios melalui HTTP atau membiarkannya menarik statistik dari file log?
Randy Syring
0

Saya merekomendasikan OpenNMS . Paket ini sepenuhnya open source, didukung secara aktif dan ditingkatkan secara berkala. Sebagai referensi, saya temukan di info konfigurasi wiki mereka untuk memantau Symantec Backup Exec .

Dari situs web mereka ..

OpenNMS adalah platform manajemen jaringan kelas perusahaan pertama di dunia yang dikembangkan dengan model open source. Ini terdiri dari proyek open-source yang didukung masyarakat serta layanan komersial, pelatihan, dan organisasi pendukung.

Pengungkapan: Saya tidak memiliki minat komersial di sini, tetapi pemilik The OpenNMS Group , "layanan komersial, pelatihan dan organisasi pendukung" yang disebutkan di atas adalah teman saya.

tomjedrz
sumber
0

Ini dapat dilakukan dengan mudah dengan Circonus ( http://circonus.com/ ). Kami secara rutin mengimpor metrik seperti ini dengan Resmon XML DTD.

ketidakjelasan
sumber