Untuk apa daftar periksa Anda ketika semuanya meledak?

40

Pengguna tidak dapat mengakses surel mereka, CEO tidak dapat membuka beranda perusahaan, dan halaman Anda hanya berbunyi dengan kode "911". Apa yang Anda lakukan ketika semuanya meledak?

Jon Galloway
sumber

Jawaban:

35

Jawaban pertama adalah tetap tenang! Saya belajar bahwa sulitnya panik sering kali memperburuk keadaan. Setelah itu tercapai, hal berikutnya adalah benar-benar memastikan apa masalahnya. Keluhan dari pengguna dan manajer akan datang pada Anda dari semua sudut, memberi tahu Anda apa yang TIDAK bisa mereka lakukan, tetapi bukan apa masalahnya.

Setelah mengetahui masalahnya, Anda dapat memulai rencana untuk memperbaikinya dan mulai memberikan skala waktu kepada pengguna yang marah!

Sam Cogan
sumber
3
Ini adalah paket reaktif. Rencana pemulihan bencana yang sebenarnya sudah ditulis dan diuji untuk setiap proses bisnis yang penting.
spoulson
3
spaulson yakin: tetapi hal pertama yang harus dilakukan adalah mencari tahu apakah Anda perlu mengaktifkan rencana atau jika membalik pemutus sirkuit akan memperbaiki semuanya.
pjz
1
Ini sebenarnya adalah hal terbaik untuk dilakukan, POST SEMPURNA! Setelah Anda harus dapat menahan semua tekanan di punggung Anda karena seperti yang dikatakan pada komentar di atas, semua orang akan bergegas ke kantor Anda untuk memberi tahu Anda bahwa mereka dapat pergi ke tempat yang mereka inginkan. Sebenarnya pengguna sebagian besar waktu benar-benar egois pada saat ini dan mereka tidak ingin mengerti sama sekali, mereka hanya ingin MEREKA bekerja dan mereka tidak peduli tentang yang lain ... Jadi saya benar-benar setuju dengan posting Anda !
Marc-Andre R.
+1 untuk membedakan "masalah" dari gejalanya.
bmb
59

Tetap tenang

Jangan panik. Bernafas! (Dari diafragma, itu membantu.) Jika Anda sudah mempelajari meditasi, itu juga bisa membantu.

Ketika dihadapkan dengan stres yang ekstrem, tubuh Anda akan beralih ke mode penerbangan atau pertarungan, karena tubuh Anda berpikir itu dalam situasi hidup atau mati. Pada saat ini tubuh Anda sebenarnya akan memompa lebih sedikit darah ke beberapa bagian otak Anda, mengurangi fungsi seperti penalaran. Ini secara efektif menurunkan IQ Anda sebagai naluri, alih-alih rasionalitas, mulai mendominasi fungsi otak Anda. Jika Anda pernah atau menyaksikan pertengkaran, Anda mungkin mengenali gejala-gejala ini ketika emosi orang-orang menyala dan rasionalitas mengambil hari libur. Kemudian, ketika orang memiliki kesempatan untuk menenangkan diri, mereka akan lebih cenderung menerima telah melakukan kesalahan atau telah salah, dan lebih mampu melihat sisi lain, tetapi dalam panasnya momen itu, kurang begitu.

Mempertahankan ketenangan Anda dan menjaga kecerdasan Anda tentang Anda akan membuat otak Anda berfungsi pada kapasitas penuh dan memastikan Anda membuat keputusan rasional berdasarkan bukti dan alasan daripada emosi dan ketakutan.

Triase

Penerapan sumber daya terbatas yang efisien untuk mencapai manfaat terbesar dengan biaya terendah sangat penting di sini. Buat keputusan sedini mungkin yang mana yang harus diperbaiki SEKARANG, yang bisa menunggu sebentar (jam, hari), dan mana yang bisa menunggu tanpa batas. Juga belajar untuk menyadari ketika sesuatu tidak dapat diselamatkan dan tidak layak disimpan (mis. Setengah router meleleh, bahkan jika itu satu-satunya milik Anda, Anda tidak dapat menyimpannya, membeli yang baru dan mendapatkannya di situs pasca-tergesa-gesa atau menemukan sesuatu yang dapat mengisi celah sementara).

Pertahankan Kesadaran Situasional

Jangan biarkan perhatian Anda terperangkap oleh beberapa masalah menarik atau oleh sesuatu yang belum Anda pahami. Tetap fokus pada gambaran besar dan pada mendapatkan hal-hal terpenting bekerja.

Gunakan Metode Ilmiah

Bentuk hipotesis. Tentukan bagaimana Anda akan menguji hipotesis ini. Kumpulkan data untuk menguji hipotesis. Cari juga data yang tidak dikonfirmasi. Perbaiki hipotesis Anda dan ulangi siklus sebanyak yang diperlukan sampai Anda cukup percaya diri dalam hipotesis Anda untuk mengambil tindakan.

Bersikap pragmatis

Sekarang bukan saatnya untuk dogma. Tidak apa-apa untuk mengambil beberapa jalan pintas di sana-sini saat pulih dari bencana. Ini pada dasarnya menimbulkan hutang teknis. Di banyak perusahaan, kegagalan bencana berarti hilangnya pendapatan yang sangat besar. Lebih baik menjalankan segala sesuatu, bahkan jika berada di bawah pijakan yang goyah, daripada untuk berlengah-lengah dan mempertaruhkan mata pencaharian perusahaan Anda. Seperti biasa, penilaian sangat penting di sini. Terkadang masuk akal untuk menopang kipas kotak yang diarahkan ke rak server, terkadang tidak.

Jaga Diri Sendiri

Sudah berapa lama Anda menangani keadaan darurat ini? Kapan terakhir kali Anda minum air? Kapan terakhir kali Anda makan? Sudah berapa lama Anda terjaga? Jangan membuat diri Anda lelah hanya karena ada keadaan darurat, luangkan waktu untuk tetap terhidrasi, makan, dan beristirahat (kalau-kalau ini adalah slog yang panjang, multi-hari).

Rekrut Bantuan

Hampir pasti ada banyak orang berbakat di perusahaan Anda yang termotivasi dan mampu memberikan bantuan. Berhati-hatilah karena terlalu banyak orang berlarian dan menyebabkan masalah satu sama lain. Juga waspada terhadap orang-orang yang mengganggu dengan menempatkan mereka melalui "firerill". Temukan orang yang sudah ingin membantu, buat mereka mengerjakan tugas yang ditargetkan, dan pastikan orang berkomunikasi satu sama lain.

Menyampaikan

Komunikasi sangat penting. Tidak ada yang seram yang tidak diketahui. Ketika orang tidak tahu apa-apa selain bahwa ada sesuatu yang rusak, pernyataan kosong bahwa itu akan kembali dalam jam X hanya meyakinkan (bahkan kurang meyakinkan setelah jam X telah berlalu dan hal-hal masih rusak). Tekanan yang dimainkan dapat mengarahkan Anda untuk memberikan perkiraan waktu WAG yang terlalu optimis, tetapi ini adalah jalan yang salah. Jangan hanya mengatakan Anda sedang mengerjakannya, jangan hanya mengatakan hal-hal akan diperbaiki pada waktu X. Bersikap terbuka, tunjukkan proses Anda, detail kemajuan Anda dan kemunduran Anda. Berikan wawasan tentang masalah, proses Anda dalam melacaknya, dan rencana Anda untuk memperbaiki hal-hal (meskipun tidak menenggelamkan orang dalam masalah kecil). Tunjukkan bahwa masalahnya tidak dapat dipecahkan, tunjukkan bahwa segala sesuatu akan diperbaiki pada akhirnya, tunjukkan bahwa ada orang yang kompeten dalam masalah tersebut,

Baji
sumber
2
Sangat bagus - Saya juga akan menambahkan bantuan merekrut jika memungkinkan
Brent
@ Ya ah, saya bermaksud menambahkannya. Saya belum menemukan kata yang tepat untuk bagian itu.
Wedge
24

Jangan Panik.

Jauder Ho
sumber
4
Dalam huruf merah besar dan ramah.
Spoike
1
Saya mendengar bahwa merah muda adalah warna yang menenangkan.
Sophie Alpert
11
Ambil handuk dan tinggalkan pesan, "Sudah lama, dan terima kasih untuk semua ikannya".
Jauder Ho
1
Mereka mengatakan taupe sangat menenangkan
Glenn Slaven
Setengah jalan ada suara-bijaksana!
Andrew Grimm
22

Langkah 0. Periksa apakah itu bukan sistem pemantauan Anda yang salah

Dave Cheney
sumber
LOL! Yang bagus! Ini terjadi begitu banyak waktu: P
Marc-Andre R.
12

masuk ke serverfault

Phil Nash
sumber
11

Segera pesan penerbangan ke negara non-ekstradisi

Glenn Slaven
sumber
8

Periksa dasar-dasarnya dulu, sepertinya konyol, tetapi hal-hal seperti

  1. Apakah daya hidup di fasilitas server? (jika Anda meng-host di luar situs)
  2. Apakah penyedia hosting Anda down?

Saya tahu bahwa banyak waktu dapat terbuang untuk mencari solusi ketika masalahnya hulu

Glenn Slaven
sumber
2
ya - jika semuanya turun - periksa pusat data - dan forum dukungan mereka. Jika ada 30 orang yang online, ketika biasanya ada 3 orang - itu mengenai penggemar.
Alister Bulman
6

Saya ping hal-hal. Apa yang terjadi setelah itu sangat bervariasi tergantung pada hasil ping.

Dylan Beattie
sumber
Digunakan metode ini hari ini. Banyak PC tidak bisa mencetak. Mencoba melakukan ping ke server database, OK. Mencoba melakukan ping ke server lisensi printer, tidak ada respons. Hasil = Kesalahan server!
Swinders
Poin bagus;) Saya melakukan itu banyak waktu per hari sebelum melakukan hal lain. Ini sebenarnya sangat menghemat waktu: P
Marc-Andre R.
4

Salahkan jaringan.

(itu lelucon!)

Orang
sumber
3

RTFLF - Baca File Log Frakkin

(Saya tidak bisa mengambil kredit untuk ini, semuanya jatuh ke Scott Hanselman )

Dillie-O
sumber
Ini seharusnya tidak menjadi langkah pertama tetapi harus salah satunya.
Marc-Andre R.
2

Jangan mencoba memperbaiki apa pun.

Pastikan Anda tahu persis apa masalahnya, yang mendasarinya. Sekarang mulai memperbaiki hal-hal. Jika ada beberapa hal untuk diperbaiki, pertimbangkan dengan hati-hati hal-hal mana yang dapat ditunda (semoga sampai hari kerja berikutnya, setidaknya!) Dan yang benar-benar harus diperbaiki sekarang.

Tetapi yang paling penting: Setelah semuanya bekerja, tanyakan mengapa "semuanya meledak"? Apa yang akan Anda lakukan untuk mencegah hal ini terjadi lagi? Apakah ada langkah-langkah yang akan membuat solusi lebih mudah jika tidak terjadi lagi?

Stewart
sumber
1

Beri tahu orang-orang, bahwa Anda mendukungnya dan jika mungkin beri mereka perkiraan kapan semuanya akan kembali normal.

Adapun pemecahan masalah aktual yang jelas tergantung pada apa yang salah. Saya biasanya menyimpan kumpulan skrip "periksa status" untuk berbagai layanan.

Brian Rasmussen
sumber
Mengapa ini downmodded? Tampaknya ini poin yang valid bagi saya.
Adriano Varoli Piazza
Ini adalah poin yang sangat bagus. Pencegahan adalah kunci untuk menghindari bencana besar;)
Marc-Andre R.
1

Periksa pemasangan kabel! Saya kehilangan jam memeriksa hal-hal lain ketika pertukaran kabel Eth0 yang sederhana akan menyelesaikan masalah ...

Adriano Varoli Piazza
sumber
Sebenarnya kabel tidak mati tanpa alasan. Jika tidak baik susun, bungkus atau metode perlindungan lainnya dan semua orang bisa bermain dengannya, sebenarnya ya, kabel kemungkinan akan putus. Kalau tidak, tidak ada alasan.
Marc-Andre R.
0

Anda harus memiliki rencana darurat.

Sistem esensial harus dirancang dengan failover otomatis atau rencana pemulihan yang terdokumentasi dan teruji.

Semakin penting sistem, semakin banyak ketahanan yang Anda perlukan untuk membangun dan semakin otomatis seharusnya.

Jika Anda tidak memilikinya, maka itu tidak penting, kan!

Orang
sumber
0

Pastikan cadangan resume Anda aman :) Lalu,

Temukan kesamaan. Apa yang umum untuk semua sistem yang terpengaruh.

Temukan apa yang berubah. Anda harus memiliki manajemen perubahan formal yang terjadi di organisasi Anda.

Di mana pria baru ... di mana bosnya ...? Apakah salah satu dari mereka mengambil jalan pintas? (Ini hanya reboot server cepat, apa yang mungkin menyakitkan)

BIBD
sumber
0

Sulit dari pernyataan itu untuk memberikan serangkaian tindakan tertentu. Langkah pertama Anda akan didasarkan pada:

  • Dimana kamu berada
  • Berapa banyak informasi yang dapat Anda peras dari orang yang menghubungi Anda
  • Apa alat langsung yang Anda miliki untuk mengatasi masalah (atau pencarian informasi)
  • Pengetahuan Anda tentang jalur fisik dan logis untuk jaringan Anda
  • Berapa banyak bantuan yang Anda miliki (bagian dari tim? Atau ninja kesepian?)

Jelas, Anda harus tetap tenang dan waspada tentang masalah yang dihadapi. Pengalaman Anda dengan pemecahan masalah jaringan akan mengajarkan Anda bahwa ini bisa sangat sepele, seperti:

  • Kabel terputus
  • Pemeliharaan tanpa pemberitahuan sebelumnya (hal-hal 'memperbaiki' teknologi lainnya)
  • CEO Anda bereaksi berlebihan tentang perusahaan yang benar-benar hancur setelah konektivitas nirkabel laptopnya hilang karena dia microwave pizza keju.

Karena itu, itu juga bisa menjadi sesuatu yang serius dalam kategori:

  • Transportasi Fisik (konektivitas)
  • Perangkat keras (router \ switch \ server)
  • Penyimpanan (tidak dapat diakses \ dikompromikan \ dihapus)
  • Perangkat Lunak (Layanan> Kesalahan Konfigurasi \ Diserang \ offline)

Komponen kuncinya adalah seberapa banyak ANDA TAHU tentang masalah ini. Apa poin referensi Anda? (Dari perspektif apa 'sistem turun'?).

l0c0b0x
sumber
0

Periksa DNS.

Cawflands
sumber
0

Mulailah yang sederhana dan bekerja menuju absurd.

Kekuasaan?

Ethernet?

Program berjalan?

...

Alien?

Robert
sumber