Dapatkah seseorang menjelaskan "kasus penggunaan" untuk grafik munin default?

9

Saat memasang munin, ia mengaktifkan set plugin standar (setidaknya di ubuntu). Sebagai alternatif, Anda cukup menjalankan munin-node-configureuntuk mencari tahu plugin mana yang didukung pada sistem Anda. Sebagian besar plugin ini memplot data secara langsung. Pertanyaan saya bukan untuk menjelaskan sifat data (well ... mungkin untuk beberapa) tetapi apa yang Anda cari dalam grafik ini?

Sangat mudah untuk menginstal munin dan melihat grafik mewah. Tetapi memiliki grafik dan tidak bisa "membaca" mereka membuat mereka sama sekali tidak berguna.

Saya akan daftar plugin standar yang diaktifkan secara default di sistem saya. Jadi itu akan menjadi daftar panjang. Untuk kelengkapan, saya juga akan daftar plugin yang saya pikir mengerti dan memberikan penjelasan singkat untuk apa saya pikir itu digunakan untuk. Tolong perbaiki jika saya salah dengan salah satu dari mereka.

Jadi izinkan saya membagi pertanyaan ini menjadi tiga bagian:

  • Plugin tempat saya bahkan tidak mengerti datanya
  • Plugin tempat saya memahami data tetapi tidak tahu apa yang harus saya perhatikan
  • Plugin yang menurut saya mengerti

Plugin tempat saya bahkan tidak mengerti datanya

Ini mungkin berisi pertanyaan yang tidak harus ditujukan pada munin saja. Tidak memahami data biasanya berarti kesenjangan dalam pengetahuan mendasar tentang sistem operasi / perangkat keras ....;) Jangan ragu untuk menjawab dengan jawaban "giyf".

Ini adalah plugin di mana saya hanya bisa menebak apa yang terjadi ... Saya hampir tidak ingin melihat "menebak" ini ...

  • IOs Disk per perangkat (IOs / detik)
    Apa itu IO. Saya tahu itu singkatan dari input / output. Tapi itu sejauh ini.
  • Latensi disk per perangkat (Rata-rata menunggu IO)
    Bukan petunjuk apa "IO tunggu" itu ...
  • IO Service Time Yang
    ini adalah kekacauan besar, dan hampir tidak mungkin untuk melihat sesuatu di grafik sama sekali.

Plugin tempat saya memahami data tetapi tidak tahu apa yang harus saya perhatikan

  • IOStat (blok / baca / ditulis kedua)
    Saya berasumsi, hal yang harus diperhatikan di sini adalah paku? Yang berarti bahwa perangkat ini sedang digunakan berat?
  • Entropi yang tersedia (byte)
    Saya berasumsi bahwa ini penting untuk pembuatan angka acak? Mengapa saya membuat grafik ini? Sejauh ini nilainya selalu mendekati konstan.
  • VMStat (menjalankan / proses tidur I / O)
    Apa perbedaan antara yang satu ini dan grafik "proses"? Keduanya menunjukkan proses berjalan / tidur, sedangkan grafik "Proses" tampaknya memiliki detail lebih lanjut.
  • Throughput disk per perangkat (byte / baca / tulis kedua)
    Apa perbedaan antara yang satu ini dan grafik "IOStat"?
  • penggunaan tabel inode
    Apa yang harus saya cari dalam grafik ini?

Plugin yang menurut saya mengerti

Saya akan menebak beberapa hal di sini ... koreksi saya jika saya salah.

  • Penggunaan disk dalam persen (persen)
    Berapa banyak ruang disk yang digunakan / tersisa. Karena ini mendekati 100%, Anda harus mempertimbangkan untuk membersihkan atau memperpanjang partisi. Ini sangat penting untuk partisi root.
  • Throughput Firewall (paket / detik)
    Jumlah paket yang melewati firewall. Jika ini melonjak untuk jangka waktu yang lebih lama, itu bisa menjadi tanda serangan DOS (atau kami hanya menerima file besar). Itu juga dapat memberi Anda gambaran tentang kinerja firewall Anda. Jika naik level dan Anda membutuhkan lebih banyak "kekuatan", Anda harus mempertimbangkan load balancing. Jika leveling dan melihat korelasi dengan beban CPU Anda, itu juga bisa berarti bahwa perangkat keras Anda tidak cukup cepat. Korelasi dengan penggunaan disk dapat menunjukkan target LOG yang berlebih dalam konfigurasi FW Anda.
  • kesalahan eth0 (paket masuk / keluar)
    Kesalahan jaringan. Jika nilai ini meningkat, itu bisa menjadi tanda perangkat keras rusak.
  • lalu lintas eth0 (bit / detik masuk / keluar)
    Lalu lintas jaringan mentah. Ini harus berkorelasi dengan throughput Firewall.
  • jumlah utas
    Nilai yang terus meningkat mungkin menunjukkan proses yang tidak menutup utas dengan benar. Menyelidiki!
  • proses
    Hancuran proses aktif (termasuk tidur). Lonjakan cepat di sini mungkin menunjuk pada bom garpu. Nilai yang lambat, tetapi terus meningkat mungkin menunjuk ke aplikasi yang menelurkan sub-proses tetapi tidak menutupnya dengan baik. Selidiki menggunakan ps faux.
  • prioritas proses
    Ini menunjukkan distribusi prioritas proses. Hanya memiliki proses prioritas tinggi tidak banyak berguna. Pertimbangkan untuk tidak memprioritaskan beberapa.
  • Penggunaan CPU
    Cukup mudah. Jika ini spike, Anda mungkin mengalami serangan, atau proses memonopoli CPU. Jika itu perlahan-lahan meningkat dan mendekati maks dalam operasi normal, Anda harus mempertimbangkan untuk memperbarui perangkat keras Anda (atau load-balancing).
  • penggunaan tabel file
    Jumlah file yang aktif dibuka. Jika ini mencapai maks, Anda mungkin memiliki proses pembukaan, tetapi tidak merilis file dengan benar.
  • load average
    Menunjukkan nilai yang diringkas untuk beban sistem. Harus berkorelasi dengan penggunaan CPU. Nilai yang meningkat dapat berasal dari sejumlah sumber. Cari korelasinya dengan grafik lain.
  • penggunaan memori
    Representasi grafis dari memori Anda. Selama Anda memiliki banyak + cache + buffer yang tidak digunakan, Anda baik-baik saja.
  • swap masuk / keluar
    Menunjukkan aktivitas di partisi swap Anda. Ini harus selalu 0. Jika Anda melihat aktivitas ini, Anda harus menambahkan lebih banyak memori ke mesin Anda!
exhuma
sumber
Pertanyaan bagus, mudah diterapkan pada Cacti dan aplikasi grafik lainnya. Grafiknya sering terlihat bagus, tetapi cukup sulit untuk mencari tahu apa artinya, dan lebih lagi seperti apa sesuatu yang perlu diperhatikan.
dunxd
2
Untuk "Mengapa saya membuat grafik ini? Sejauh ini nilainya selalu mendekati konstan." sebagian, ingatlah bahwa sebagian besar informasi biasanya hanya berharga jika ada masalah.
Steve Schnepp

Jawaban:

11

IOs Disk per perangkat (IOs / detik)

Dengan hard drive tradisional, ini adalah angka yang sangat penting. Operasi I / O adalah operasi baca atau tulis ke disk. Dengan spindle rotasi Anda dapat berkeliling dari puluhan hingga mungkin 200 IOPS per detik, tergantung pada kecepatan disk dan pola penggunaannya.

Ini tidak semuanya: sistem operasi modern memiliki penjadwal I / O yang mencoba untuk menggabungkan beberapa permintaan I / O sebagai satu dan membuat segalanya lebih cepat seperti itu. Juga pengendali RAID dan sebagainya melakukan beberapa pemesanan ulang I / O yang pintar.

Latensi disk per perangkat (Tunggu IO rata-rata)

Berapa lama dari menjalankan permintaan I / O ke disk individu untuk benar-benar menerima data dari sana. Jika ini berkisar sekitar beberapa milidetik, Anda OK, jika puluhan ms, maka Anda mulai melihat subsistem disk Anda berkeringat, jika ratusan ms lebih, Anda berada dalam masalah besar, atau setidaknya memiliki sangat, sangat sistem lambat.

Waktu Layanan IO

Bagaimana kinerja subsistem disk Anda (mungkin mengandung banyak disk) secara keseluruhan.

IOStat (blok / baca / ditulis kedua)

Berapa banyak blok disk yang dibaca / ditulis per detik. Cari paku dan juga rata-rata. Jika rata-rata mulai mendekati throughput maksimum subsistem disk Anda, saatnya merencanakan peningkatan kinerja. Sebenarnya, rencanakan seperti itu sebelum titik itu.

Entropi yang tersedia (byte)

Beberapa aplikasi memang ingin mendapatkan data acak "benar". Kernel mengumpulkan keacakan yang 'benar' dari beberapa sumber, seperti aktivitas keyboard dan mouse, generator angka acak yang ditemukan di banyak motherboard, atau bahkan dari file video / musik (video-entropyd dan audio-entropyd dapat melakukannya).

Jika sistem Anda kehabisan entropi, aplikasi yang menginginkan data tersebut terhenti hingga mereka mendapatkan datanya. Secara pribadi di masa lalu saya telah melihat ini terjadi dengan daemon Cyrus IMAP dan layanan POP3-nya; itu menghasilkan string acak panjang sebelum setiap login, dan pada server yang sibuk yang mengkonsumsi kumpulan entropi dengan sangat cepat.

Salah satu cara untuk menghilangkan masalah itu adalah dengan beralih aplikasi untuk menggunakan hanya data semi-acak (/ dev / urandom), tapi itu bukan topik ini lagi.

VMStat (menjalankan / proses tidur I / O)

Tidak memikirkan yang ini sebelumnya, tapi saya akan berpikir bahwa ini memberitahu Anda tentang statistik I / O per-proses, atau terutama jika mereka menjalankan beberapa I / O atau tidak, dan jika I / O itu memblokir aktivitas I / O atau tidak.

Throughput disk per perangkat (byte / baca / tulis kedua)

Ini murni byte dibaca / ditulis per detik, dan lebih sering ini adalah bentuk yang lebih dapat dibaca manusia daripada blok , yang dapat bervariasi. Ukuran blok mungkin berbeda karena disk yang digunakan, sistem file (dan pengaturannya) yang digunakan, dan sebagainya. Terkadang ukuran blok mungkin 512 byte, kali lain 4096 byte, kadang-kadang sesuatu yang lain.

penggunaan tabel inode

Dengan sistem file yang memiliki inode dinamis (seperti XFS), tidak ada apa-apa. Dengan sistem file yang memiliki peta inode statis (seperti ext3), semuanya. Jika Anda memiliki kombinasi inode statis, sistem file besar dan sejumlah besar direktori dan file kecil, Anda mungkin menghadapi situasi di mana Anda tidak dapat membuat lebih banyak file pada partisi itu, meskipun secara teori akan ada banyak ruang kosong yang tersisa. Tidak ada inode gratis == buruk.

Janne Pikkarainen
sumber
mempertimbangkan penggunaan inode. Saat ini saya menggunakan ext4, dan max-indodes dan open-inode dalam grafik itu sangat dekat (buka: 31.11k ukuran tabel: 32.12k). Yang akan meninggalkan saya dengan sekitar 1k inode yang tersisa. Karena sistem baru diinstal, saya tidak percaya ini menunjukkan masalah. Apakah ext4 mengalokasikan inode secara dinamis? Saya belum menemukan apa-apa tentang itu di google ...
exhuma
Lihat df -i, itu melaporkan Anda penggunaan inode saat ini. ext4 telah memperbaiki inode, misalnya Fedora 16 saya melaporkan untuk partisi root sayarootfs 3276800 238083 3038717 8% /
Janne Pikkarainen
Hmmm ... menarik. Ini menunjukkan bahwa grafik munin tidak benar. Saya juga tidak menyadari bahwa grafik munin hanya menunjukkan satu nilai. Tidakkah seharusnya menunjukkan satu nilai per sistem file yang akan membantu? Lihat juga df -itangkapan layar ( i44.tinypic.com/oixkiq.png ) vs grafik munin ( i39.tinypic.com/dxl64z.png )
exhuma
... Nilai dalam grafik (25.57k) sebenarnya sama sekali tidak terlihat di dfoutput.
exhuma
Setelah diselidiki lebih lanjut, saya melihat bahwa plugin munin open_inodes, mengambil nilai dari /proc/sys/fs/inode-nr. Ini adalah kernel, dan bukan nilai sistem file. Sedikit lebih banyak googling menunjuk saya ke ini: mjmwired.net/kernel/Documentation/sysctl/fs.txt#119 Dari dokumen itu saya akan berasumsi bahwa batas dapat ditemukan di inode-max. Tetapi file ini tidak ada di sistem saya. Mungkinkah ini tidak lagi berkaitan dengan kernel yang lebih baru? Ini akan memungkinkan saya untuk menghapus grafik ini dari instance munin saya!
exhuma