Bagaimana * Anda * melacak dan mendokumentasikan pemeliharaan rutin?

10

Perangkat lunak atau sistem apa yang Anda gunakan pada kesalahan server untuk mengingatkan Anda untuk melakukan pemeliharaan rutin? Bagaimana Anda memeriksa dan mencatat berbagai item yang seharusnya Anda periksa? Apakah Anda memiliki dokumen proses internal? Apakah Anda memiliki cron mail setiap minggu dengan pengingat untuk memeriksa log sistem?

Juga, apakah Anda bekerja dalam tim untuk melakukan pemeliharaan sistem, dan jika demikian, bagaimana Anda mengoordinasikan siapa yang akan melakukan pemeliharaan apa?

Jika Anda menggunakan bug / sistem pelacakan masalah untuk memasukkan tugas, apakah Anda memiliki tugas cron memasukkan tugas berulang?

Zak
sumber

Jawaban:

5

Saya saat ini menggunakan Pelacak Permintaan ( http://www.bestpractical.com/rt )
Semua acara pemeliharaan mendapatkan tiket terkait dalam antrian "sistem". Catatan tentang masalah yang dihadapi, siapa yang melakukan apa yang bekerja kapan, dll. Semua dimasukkan ke dalam tiket, bersama dengan persetujuan yang diperlukan.

Saat ini tugas berulang kami (tambalan triwulanan, dll.) Dibuat secara manual, tetapi tugas tersebut dapat diotomatisasi dengan cukup mudah (cron job + email).

Mengkoordinasikan siapa yang melakukan pekerjaan apa yang relatif mudah bagi kami karena hanya ada 2 orang di grup admin kami, tetapi saat kami meningkatkan rencananya adalah membuat tiket induk untuk acara pemeliharaan & menggunakan tiket anak yang ditugaskan ke pihak yang bertanggung jawab untuk mendelegasikan pekerjaan .


Hal-hal sehari-hari (pemeriksaan log, dll.) Adalah masalah lain: Saya memiliki semua itu untuk proses otomatis:

  • InterMapper mengawasi status keseluruhan server (permintaan SNMP mencari beban tinggi, ruang disk rendah, dll.), Fungsionalitas antarmuka web kami, dan berbagai hal lain yang dapat mengindikasikan masalah.
  • Syslog-NG mengumpulkan log dari host kami & mengumpankannya melalui banyak skrip yang memeriksa apakah ada kejahatan nyata. Saya sesekali memeriksa log untuk memeriksa skrip, tapi tidak dijadwalkan secara teratur.
voretaq7
sumber
2

Otomasi yang diimplementasikan dengan benar menghilangkan kebutuhan untuk tugas dan memeriksa daftar sama sekali. Mengapa Anda secara manual ingin memeriksa hal-hal ketika Anda memiliki komputer yang dapat melakukan pekerjaan jauh lebih efektif dan efisien?

Apa pun yang perlu diperiksa berkala diperiksa oleh sistem pemantauan. Tugas rutin diotomatiskan setiap kali praktis dan pengingat dikirim untuk beberapa tugas yang perlu dilakukan secara manual. Dokumentasi adalah masalah lain tetapi dilakukan dengan benar kebanyakan komputer Anda dapat membuat dokumentasi sendiri.

Berhenti mencari cara manual yang lebih baik dan mulai mencari cara otomatis yang lebih baik untuk melakukan pekerjaan apa pun. Komputer ada di sana untuk bekerja untuk kita, bukan kita untuk bekerja untuk mereka.

John Gardeniers
sumber
Aturan praktis yang baik: Seorang sysadmin harus selalu kompeten dan malas. Keinginan untuk tidak melakukan pekerjaan akan menyebabkan sysadmin yang baik untuk menerapkan otomatisasi yang baik.
voretaq7
Biarkan saya memberikan contoh spesifik: Saya perlu memonitor patch keamanan untuk Apache, kemudian menghasilkan build baru dan mengujinya ketika patch keluar. Bagian rutin memantau untuk rilis Apache baru. Tidak bisa hanya memperbarui langsung dari repositori (utama) karena tidak memiliki modul yang benar dikompilasi. Juga, perlu diaudit untuk memastikan bahwa rilis telah diperiksa. Apakah itu lebih masuk akal?
Zak
Juga, saya tidak ingin hanya menggulung batch terbaru dari perangkat lunak apa pun hingga build telah lulus QA. Sebagian besar QA terotomatisasi, tetapi tidak semuanya.
Zak
Dan adakah alasan yang tidak bisa ditulis semuanya? Otomatis memeriksa pembaruan, mengirimkan Anda peringatan ketika beberapa tersedia, diikuti oleh kompilasi dan instalasi scripted, siap untuk Anda uji. Biarkan mesin melakukan sebagian besar pekerjaan dan memberi tahu Anda kapan perhatian Anda diperlukan.
John Gardeniers
1

Untuk pekerjaan-proyek, itu dikeluarkan dari aplikasi Manajemen Proyek (email & kalender terintegrasi dengan kemampuan untuk mendokumentasikan pekerjaan rinci dan menjadwalkannya untuk orang-orang tertentu).

Untuk pemeliharaan, peningkatan, perbaikan, dll. Kami memiliki sistem tiket yang kurang lebih terintegrasi dengan proses Manajemen Perubahan kami untuk menangani permintaan dan penjadwalan.

Untuk pekerjaan yang sepenuhnya didorong oleh internal dan bekerja dalam siklus panjang (triwulanan, tahunan, dll.):

Pengingat untuk melakukan sesuatu telah dijadwalkan. Dokumentasi informal / semi-formal ada ("wiki") untuk apa jadwal umum mungkin.

Ada sejumlah "cara" dan dokumentasi prosedural tentang cara melaksanakan tugas dan dapat diakses oleh tim pada umumnya, tetapi orang-orang memiliki admin sendiri "buku hitam" dan log dengan catatan & resep.

Damorg
sumber
1

Sistem pemantauan dapat membantu dengan hal-hal ini:

  • Kami mendokumentasikan setiap putaran pemeliharaan bulanan dalam file dokumen kata dengan kotak centang. Setiap bulan kami menyimpan laporan ke folder di NAS kami. Kami memantau usia file minimum folder. Jika usia file minimum di atas 40 hari, kami mendapatkan alarm.

  • Salah satu bagian dari pemeliharaan rutin kami adalah me-reboot server dan peralatan yang dipilih sebulan sekali. Kami menggunakan sensor "sistem waktu aktif" (SNMP / WMI) pada perangkat lunak pemantauan kami dan jika waktu aktifnya di atas 40 hari kami mendapatkan alarm.

  • Untuk cadangan, kami memantau umur file minimum di setiap folder cadangan server di NAS kami. Jika usia file minimum di atas 10 hari, kami mendapatkan alarm.

Dirk Paessler
sumber
1

Saya menggunakan Checkpanel ( https://checkpanel.com ) untuk mengelola tugas pemeliharaan berulang saya. Ini memberikan daftar periksa yang dapat digunakan kembali dan antarmuka yang mudah untuk mencatat hasil setiap pemeriksaan.

Setelah memeriksa suatu barang, itu bukan hanya "selesai" tetapi tetap tersedia untuk pemeriksaan lebih lanjut. Setiap cek dicatat sehingga Anda dapat dengan mudah meninjau riwayat semua pemeriksaan item yang lalu - termasuk perincian opsional (mis. Pesan kesalahan untuk pemeriksaan yang gagal).

Anda dapat mengatur berulang untuk setiap item untuk memastikan bahwa Anda memeriksanya setidaknya sekali per minggu / setiap 2 hari / dll. Ada pandangan gabungan dari semua item yang jatuh tempo. Jika mau, Anda juga dapat menerima email setiap hari dengan semua item yang jatuh tempo.

Ada template daftar periksa pemeliharaan server yang dapat Anda gunakan sebagai dasar untuk daftar periksa Anda sendiri. Template lainnya termasuk daftar periksa untuk aplikasi web, WordPress, dan lainnya.

Pengungkapan: Saya adalah pendiri Checkpanel.

Florian Sander
sumber