Mendokumentasikan pemadaman untuk review post-mortem

14

Kami mengalami pemadaman yang agak serius pada minggu terakhir ini yang memengaruhi beberapa layanan yang membuat kami keluar dari SLA kami dengan pelanggan. Sekarang semuanya telah diselesaikan, saya sedang melakukan tinjauan post-mortem.

Dari ulasan ini, saya ingin membuat dokumen internal yang menjelaskan pemadaman, efeknya, respons kita, dan resolusi. Saya ingin membuat formulir yang cukup standar untuk digunakan kembali di masa depan. Saya telah memasukkan pemikiran saya di bawah ini, tetapi barang apa lagi yang harus dimasukkan? Jika ini insiden terkait keamanan, apa yang akan Anda tambahkan?

  • Ringkasan Ringkasan tingkat eksekutif acara.
  • Layanan yang Terkena Dampak
  • Dampak Apa dampaknya bagi pengguna dan SLA kami? Apakah ada biaya dalam dolar, transaksi yang terlewatkan, pelanggan yang hilang, dll?
  • Durasi Pemadaman Untuk setiap layanan yang terpengaruh jika ada varian
  • Penyebab Termasuk penyebab primer dan sekunder
  • Resolusi
  • Garis waktu acara Pemberitahuan, kontak dengan vendor eksternal, pemberitahuan pelanggan, tanggapan, dll.
  • Masalah dengan respons kita Apakah semuanya tidak berjalan sesuai rencana dengan respons kita terhadap pemadaman? Orang yang benar diberitahu? Apakah vendor memenuhi kewajiban kontraknya?
  • Langkah-langkah pencegahan yang harus diambil Bagaimana kita mencegah pemadaman ini tidak terjadi lagi atau mengurangi dampaknya?
  • Metode Deteksi Seberapa baik kita mendeteksi pemadaman ini dan bagaimana kita meningkatkan deteksi di masa depan?
  • Perubahan yang dilakukan dalam respons pemadaman di masa mendatang

Usahakan untuk menyimpan posting di satu item dan penjelasan, dan postingan ini dapat diperbarui dengan jawaban pilihan teratas.

Doug Luxem
sumber

Jawaban:

6

Meskipun dapat dicakup dalam langkah-langkah Pencegahan untuk diambil , saya akan merekomendasikan memiliki bagian metode Deteksi yang dapat Anda gunakan untuk mencatat apa gejala sebenarnya dan bagaimana Anda dapat mendeteksi masalah (lebih cepat) jika itu terjadi lagi, idealnya menggunakan otomatisasi.

JayC
sumber
Ditambahkan ke wiki
Doug Luxem
2

Kelihatan bagus. Saya hanya akan menambahkan yang berikut ini:

Efek / Konsekuensi : Apa konsekuensi dari pemadaman listrik - siapa yang terkena dampak, yang SLA dilanggar (jika ada), apakah ada efek knock-on?

Menandai
sumber
1

Layanan yang terpengaruh dan durasi pemadaman hanya memberi tahu Anda seberapa buruk pemadaman itu. Anda juga ingin tahu apa dampaknya pada bisnis itu.

Dampak : Apa dampaknya terhadap pengguna, dan bagaimana pengaruhnya? Berapa banyak biaya yang harus kita keluarkan (dengan kehilangan SLA, kehilangan pesanan, dll.)?

user8996
sumber
Saya suka perbedaan antara layanan yang terkena dampak dan dampak bisnis, tetapi saya akan mengkategorikannya sebagai "Dampak Bisnis" dan bukan hanya dampak (untuk menarik perbedaan antara layanan itu dan informasi layanan / durasi yang terpengaruh). Plus itu akan menarik perhatian manajemen yang perlu mewaspadai dampak bisnis, jika tidak semua detail teknis dari layanan apa yang terkena dampak ...
Milner
1

Rilis publik & rilis internal

Ini lebih merupakan sesuatu yang harus diputuskan oleh manajemen, tetapi Anda mungkin harus memasukkan apa yang harus dirilis kepada pelanggan tentang hal itu atau rekomendasi Anda. Juga cara mendapatkan sign off dari manajemen pada kata-kata yang tepat tentang apa yang akan dirilis ke pelanggan sebelum merilis apa pun.

Rilis publik harus disertakan dalam hal ini sehingga siapa pun di perusahaan tahu apa yang diizinkan untuk disampaikan kepada pelanggan.

SpaceManSpiff
sumber
Saya pikir dokumen internal ini dapat digunakan untuk menghasilkan rilis eksternal kepada pelanggan. Tepatnya apa yang akan diberitahukan kepada pelanggan tergantung pada eksekutif dan pemasaran / komunikasi kami.
Doug Luxem