Pengguna tidak dapat mengakses surel mereka, CEO tidak dapat membuka beranda perusahaan, dan halaman Anda hanya berbunyi dengan kode "911". Apa yang Anda lakukan ketika semuanya meledak?
disaster-recovery
Jon Galloway
sumber
sumber
Tetap tenang
Jangan panik. Bernafas! (Dari diafragma, itu membantu.) Jika Anda sudah mempelajari meditasi, itu juga bisa membantu.
Ketika dihadapkan dengan stres yang ekstrem, tubuh Anda akan beralih ke mode penerbangan atau pertarungan, karena tubuh Anda berpikir itu dalam situasi hidup atau mati. Pada saat ini tubuh Anda sebenarnya akan memompa lebih sedikit darah ke beberapa bagian otak Anda, mengurangi fungsi seperti penalaran. Ini secara efektif menurunkan IQ Anda sebagai naluri, alih-alih rasionalitas, mulai mendominasi fungsi otak Anda. Jika Anda pernah atau menyaksikan pertengkaran, Anda mungkin mengenali gejala-gejala ini ketika emosi orang-orang menyala dan rasionalitas mengambil hari libur. Kemudian, ketika orang memiliki kesempatan untuk menenangkan diri, mereka akan lebih cenderung menerima telah melakukan kesalahan atau telah salah, dan lebih mampu melihat sisi lain, tetapi dalam panasnya momen itu, kurang begitu.
Mempertahankan ketenangan Anda dan menjaga kecerdasan Anda tentang Anda akan membuat otak Anda berfungsi pada kapasitas penuh dan memastikan Anda membuat keputusan rasional berdasarkan bukti dan alasan daripada emosi dan ketakutan.
Triase
Penerapan sumber daya terbatas yang efisien untuk mencapai manfaat terbesar dengan biaya terendah sangat penting di sini. Buat keputusan sedini mungkin yang mana yang harus diperbaiki SEKARANG, yang bisa menunggu sebentar (jam, hari), dan mana yang bisa menunggu tanpa batas. Juga belajar untuk menyadari ketika sesuatu tidak dapat diselamatkan dan tidak layak disimpan (mis. Setengah router meleleh, bahkan jika itu satu-satunya milik Anda, Anda tidak dapat menyimpannya, membeli yang baru dan mendapatkannya di situs pasca-tergesa-gesa atau menemukan sesuatu yang dapat mengisi celah sementara).
Pertahankan Kesadaran Situasional
Jangan biarkan perhatian Anda terperangkap oleh beberapa masalah menarik atau oleh sesuatu yang belum Anda pahami. Tetap fokus pada gambaran besar dan pada mendapatkan hal-hal terpenting bekerja.
Gunakan Metode Ilmiah
Bentuk hipotesis. Tentukan bagaimana Anda akan menguji hipotesis ini. Kumpulkan data untuk menguji hipotesis. Cari juga data yang tidak dikonfirmasi. Perbaiki hipotesis Anda dan ulangi siklus sebanyak yang diperlukan sampai Anda cukup percaya diri dalam hipotesis Anda untuk mengambil tindakan.
Bersikap pragmatis
Sekarang bukan saatnya untuk dogma. Tidak apa-apa untuk mengambil beberapa jalan pintas di sana-sini saat pulih dari bencana. Ini pada dasarnya menimbulkan hutang teknis. Di banyak perusahaan, kegagalan bencana berarti hilangnya pendapatan yang sangat besar. Lebih baik menjalankan segala sesuatu, bahkan jika berada di bawah pijakan yang goyah, daripada untuk berlengah-lengah dan mempertaruhkan mata pencaharian perusahaan Anda. Seperti biasa, penilaian sangat penting di sini. Terkadang masuk akal untuk menopang kipas kotak yang diarahkan ke rak server, terkadang tidak.
Jaga Diri Sendiri
Sudah berapa lama Anda menangani keadaan darurat ini? Kapan terakhir kali Anda minum air? Kapan terakhir kali Anda makan? Sudah berapa lama Anda terjaga? Jangan membuat diri Anda lelah hanya karena ada keadaan darurat, luangkan waktu untuk tetap terhidrasi, makan, dan beristirahat (kalau-kalau ini adalah slog yang panjang, multi-hari).
Rekrut Bantuan
Hampir pasti ada banyak orang berbakat di perusahaan Anda yang termotivasi dan mampu memberikan bantuan. Berhati-hatilah karena terlalu banyak orang berlarian dan menyebabkan masalah satu sama lain. Juga waspada terhadap orang-orang yang mengganggu dengan menempatkan mereka melalui "firerill". Temukan orang yang sudah ingin membantu, buat mereka mengerjakan tugas yang ditargetkan, dan pastikan orang berkomunikasi satu sama lain.
Menyampaikan
Komunikasi sangat penting. Tidak ada yang seram yang tidak diketahui. Ketika orang tidak tahu apa-apa selain bahwa ada sesuatu yang rusak, pernyataan kosong bahwa itu akan kembali dalam jam X hanya meyakinkan (bahkan kurang meyakinkan setelah jam X telah berlalu dan hal-hal masih rusak). Tekanan yang dimainkan dapat mengarahkan Anda untuk memberikan perkiraan waktu WAG yang terlalu optimis, tetapi ini adalah jalan yang salah. Jangan hanya mengatakan Anda sedang mengerjakannya, jangan hanya mengatakan hal-hal akan diperbaiki pada waktu X. Bersikap terbuka, tunjukkan proses Anda, detail kemajuan Anda dan kemunduran Anda. Berikan wawasan tentang masalah, proses Anda dalam melacaknya, dan rencana Anda untuk memperbaiki hal-hal (meskipun tidak menenggelamkan orang dalam masalah kecil). Tunjukkan bahwa masalahnya tidak dapat dipecahkan, tunjukkan bahwa segala sesuatu akan diperbaiki pada akhirnya, tunjukkan bahwa ada orang yang kompeten dalam masalah tersebut,
sumber
Jangan Panik.
sumber
Langkah 0. Periksa apakah itu bukan sistem pemantauan Anda yang salah
sumber
masuk ke serverfault
sumber
Segera pesan penerbangan ke negara non-ekstradisi
sumber
Periksa dasar-dasarnya dulu, sepertinya konyol, tetapi hal-hal seperti
Saya tahu bahwa banyak waktu dapat terbuang untuk mencari solusi ketika masalahnya hulu
sumber
Saya ping hal-hal. Apa yang terjadi setelah itu sangat bervariasi tergantung pada hasil ping.
sumber
Maaf, tetapi pertanyaan ini sudah dijawab dengan sempurna dalam kartun sysadmin Favorit :
sumber
Salahkan jaringan.
(itu lelucon!)
sumber
RTFLF - Baca File Log Frakkin
(Saya tidak bisa mengambil kredit untuk ini, semuanya jatuh ke Scott Hanselman )
sumber
Jangan mencoba memperbaiki apa pun.
Pastikan Anda tahu persis apa masalahnya, yang mendasarinya. Sekarang mulai memperbaiki hal-hal. Jika ada beberapa hal untuk diperbaiki, pertimbangkan dengan hati-hati hal-hal mana yang dapat ditunda (semoga sampai hari kerja berikutnya, setidaknya!) Dan yang benar-benar harus diperbaiki sekarang.
Tetapi yang paling penting: Setelah semuanya bekerja, tanyakan mengapa "semuanya meledak"? Apa yang akan Anda lakukan untuk mencegah hal ini terjadi lagi? Apakah ada langkah-langkah yang akan membuat solusi lebih mudah jika tidak terjadi lagi?
sumber
Beri tahu orang-orang, bahwa Anda mendukungnya dan jika mungkin beri mereka perkiraan kapan semuanya akan kembali normal.
Adapun pemecahan masalah aktual yang jelas tergantung pada apa yang salah. Saya biasanya menyimpan kumpulan skrip "periksa status" untuk berbagai layanan.
sumber
Periksa pemasangan kabel! Saya kehilangan jam memeriksa hal-hal lain ketika pertukaran kabel Eth0 yang sederhana akan menyelesaikan masalah ...
sumber
Anda harus memiliki rencana darurat.
Sistem esensial harus dirancang dengan failover otomatis atau rencana pemulihan yang terdokumentasi dan teruji.
Semakin penting sistem, semakin banyak ketahanan yang Anda perlukan untuk membangun dan semakin otomatis seharusnya.
Jika Anda tidak memilikinya, maka itu tidak penting, kan!
sumber
Pastikan cadangan resume Anda aman :) Lalu,
Temukan kesamaan. Apa yang umum untuk semua sistem yang terpengaruh.
Temukan apa yang berubah. Anda harus memiliki manajemen perubahan formal yang terjadi di organisasi Anda.
Di mana pria baru ... di mana bosnya ...? Apakah salah satu dari mereka mengambil jalan pintas? (Ini hanya reboot server cepat, apa yang mungkin menyakitkan)
sumber
Saya suka daftar pemecahan masalah ini Aplikasi Pemecahan Masalah Sederhana Sekarang Memperbaiki Segalanya =)
sumber
Sulit dari pernyataan itu untuk memberikan serangkaian tindakan tertentu. Langkah pertama Anda akan didasarkan pada:
Jelas, Anda harus tetap tenang dan waspada tentang masalah yang dihadapi. Pengalaman Anda dengan pemecahan masalah jaringan akan mengajarkan Anda bahwa ini bisa sangat sepele, seperti:
Karena itu, itu juga bisa menjadi sesuatu yang serius dalam kategori:
Komponen kuncinya adalah seberapa banyak ANDA TAHU tentang masalah ini. Apa poin referensi Anda? (Dari perspektif apa 'sistem turun'?).
sumber
Periksa DNS.
sumber
Mulailah yang sederhana dan bekerja menuju absurd.
Kekuasaan?
Ethernet?
Program berjalan?
...
Alien?
sumber