Saat ini saya menggunakan nilai-nilai ini:
# y = c * p / 100
# y: nagios value
# c: number of cores
# p: wanted load procent
# 4 cores
# time 5 minutes 10 minutes 15 minutes
# warning: 90% 70% 50%
# critical: 100% 80% 60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
Tetapi nilai-nilai ini hanya diambil hampir secara acak.
Adakah yang memiliki beberapa nilai yang diuji?
monitoring
nagios
Sandra
sumber
sumber
standard
atautested
nilai. Itu tergantung pada beban kerja server yang Anda harapkan. Jika Anda mengharapkan beban tinggi, Anda harus meningkatkan nilainya. Jika tidak, server Anda akan selalu muncul dalam kondisi kritis.Jawaban:
Beban Linux sebenarnya sederhana. Setiap angka rata-rata beban adalah penjumlahan dari semua beban rata-rata inti. Yaitu.
mana
0 < avg load < infinity
.Jadi jika suatu beban adalah 1 pada server 4 inti, maka itu berarti setiap inti digunakan 25% atau satu inti 100% di bawah beban. Beban 4 berarti semua 4 core berada di bawah beban 100%. Muatan> 4 berarti server membutuhkan lebih banyak core.
check_load
sekarang punyayang berarti bahwa ketika digunakan, Anda dapat menganggap server Anda hanya memiliki satu inti dan karenanya menulis persentase pecahan secara langsung tanpa memikirkan jumlah inti. Dengan
-r
peringatan dan interval kritis menjadi0 <= load avg <= 1
. Yaitu. Anda tidak perlu mengubah nilai peringatan dan kritis Anda dari server ke server.OP memiliki 5,10,15 untuk interval. Itu salah. Ini adalah 1,5,15.
sumber
Meskipun ini adalah posting lama, membalas sekarang karena saya tahu nilai ambang check_load adalah sakit kepala besar untuk pemula ..;)
Peringatan peringatan, jika CPU 70% untuk 5 menit, 60% untuk 10 menit, 50% untuk 15 menit. Peringatan kritis, jika CPU 90% untuk 5 menit, 80% untuk 10 menit, 70% untuk 15 menit.
Semua temuan saya tentang beban CPU:
Apa yang dimaksud dengan "beban": Wikipedia mengatakan:
Semua sistem Unix dan Unix-like menghasilkan metrik tiga angka "rata-rata beban" di kernel. Pengguna dapat dengan mudah meminta hasil saat ini dari shell Unix dengan menjalankan perintah uptime:
Dari rata-rata beban keluaran di atas:
0.06, 0.11, 0.09
means (pada sistem CPU tunggal):.
Rata-rata beban di atas
1.73 0.50 7.98
pada sistem CPU tunggal sebagai:Perhitungan nilai ambang nagios:
Untuk pengaturan Beban CPU Nagios, yang mencakup peringatan dan kritis:
y = c * p / 100
Dimana:
y = nagios value
c = number of cores
p = wanted load procent
untuk sistem 4 inti:
Untuk sistem inti tunggal:
y = p / 100
Dimana:
y = nagios value
p = wanted load procent
Buku putih yang hebat tentang analisis Beban CPU oleh Dr. Gunther http://www.teamquest.com/pdfs/whitepaper/ldavg1.pdf Dalam artikel online ini Dr. Gunther menggali ke dalam kernel UNIX untuk mengetahui bagaimana rata-rata memuat ( "LA Triplets") dihitung dan seberapa tepat mereka sebagai metrik perencanaan kapasitas.
sumber
Kecuali jika server yang bersangkutan memiliki beban kerja yang tidak sinkron di mana kedalaman antrian adalah metrik layanan penting untuk dikelola, maka secara jujur tidak ada gunanya untuk memonitor rata-rata beban. Ini hanya selingan dari metrik yang penting seperti waktu layanan (waktu layanan, dan waktu layanan).
sumber
Pelengkap yang bagus juga Nagios adalah alat seperti Munin atau Cacti, mereka akan membuat grafik berbagai jenis beban kerja yang dialami server Anda. Baik itu load_average, penggunaan cpu, disk io atau yang lainnya.
Dengan menggunakan informasi ini, lebih mudah untuk menetapkan nilai ambang yang baik di Nagios.
sumber
Apakah Anda tahu pada rata-rata beban apa kinerja sistem Anda terpengaruh? Kami memiliki server di pekerjaan terakhir saya yang secara konsisten akan duduk di rata-rata beban 35-40, tetapi masih responsif. Ini adalah pengukuran yang harus Anda lakukan sedikit pekerjaan detektif untuk mendapatkan angka yang akurat.
Anda mungkin ingin mengukur beberapa metrik lain pada sistem, seperti rata-rata waktu koneksi untuk SSH atau http; ini mungkin indikator yang lebih baik tentang seberapa banyak beban sistem Anda.
sumber
Untuk memperluas jawaban Invent Sekar: Saat menggunakan check_load dan persentase, saya yakin Anda akan memerlukan Argumen Baris Perintah "-r" bersama yang lainnya.
Sebagai contoh:
sumber