Bagaimana Anda tetap tenang ketika sistem produksi turun? [Tutup]

26

Ini telah terjadi pada kebanyakan dari kita ...

Anda datang bekerja suatu hari. Segalanya tampak normal - matahari bersinar, burung berkicau, tetapi Anda memperhatikan beberapa hal aneh dalam perjalanan ke tempat kerja yang mengingatkan Anda pada kucing déjà vu di Matrix.

Anda masuk ke kantor dan ada banyak telepon berdering - tetapi mungkin saja mereka sedang melakukan promosi penjualan baru. Anda menetap, ketika Anda melihat awan gelap melayang di atas Anda.

Anda butuh beberapa saat, tetapi Anda menyadari bahwa cloud adalah bos Anda. Biasanya dia memeriksa Anda setiap pagi dengan "Soooo Peeeeter, bagaimana dengan laporan TCP / IP itu?" rutin, tetapi hari ini dia melupakan segala sesuatu tentang perilaku umum dan dengan kasar menyerbu ruang pribadi Anda. Tidak ada "Selamat Pagi", hanya air liur, dengusan dan kutukan. Dia mengingatkan Anda sedikit tentang seorang manusia Neanderthal yang mencoba untuk melarikan diri dari harimau cyber, ketakutan dan panik semua terkompresi dalam bola yang ketat. Anda mencoba menguraikan bahasa baru yang ia buat sejak kemarin dan Anda mulai memahami bahwa sesuatu yang buruk terjadi dalam semalam - sistem produksi turun.

Sekarang, sistem Anda biasanya digunakan oleh klien selama jam kerja reguler dari 9-5, tetapi untuk alasan apa pun Anda tidak mendapat peringatan tentang pager Anda (untuk orang di bawah 30 - pager seperti ponsel yang hanya dapat berdering dan memberitahumu siapa yang berbunyi bip). Anda harus ingat untuk mengisi ulang waktu berikutnya.

Jadi sekarang jam 8:45 pagi, dan sistem HARUS bangun jam 9 pagi. Setiap 10 detik, bos Anda mengeluarkan kutukan lain yang mengomunikasikan kepada Anda bahwa pelanggan lain mengalami masalah memasuki sistem. Juga, beberapa manajer akun sekarang melayang-layang di atas bos Anda mencoba membuatnya mengerti bagaimana klien benar-benar BENAR-BENAR menderita.

Semua orang bergantung pada Anda untuk mendapatkan sistem ASAP dan pada saat yang sama menghambat kemajuan Anda dengan terus-menerus mengganggu Anda.

Bagaimana Anda tetap tenang dalam situasi seperti ini?

Mag20
sumber
34
Langkah Satu: Buat posting 300 kata di programmers.stackexchange.
kubi
8
Tidak mengatakan itu sedang terjadi sekarang. Tunggu, saya periksa ...
Mag20
1
Apakah ini masalah yang unik bagi pengembang? Jika sesuatu yang menjadi tanggung jawab Anda tidak berfungsi, Anda harus mampu mengatasi tekanan terlepas dari "benda" apa itu.
ChrisF
1
Saya telah menemukan bahwa dalam pengalaman saya sendiri, sangat sedikit rumah perangkat lunak, besar dan kecil melakukan latihan pemulihan bencana. Saya akan menempatkan ini ke bos Anda. Jika hal-hal yang Anda lakukan bor, maka Anda tahu apa yang diharapkan dan Anda tahu bisa merasakan waktu respons. Anda juga dapat mengevaluasi apakah ada proses yang dapat diotomatisasi. Apa yang terjadi jika Anda kehilangan kekuatan? Apa yang terjadi jika kebakaran dimulai di kantor, apakah Anda memiliki lokasi di luar kantor? Apakah server Anda di-host di rumah atau eksternal dll. Sungguh, Anda perlu menekankan untuk rencana continguency untuk ditempatkan.
Desolate Planet
3
Ini berbunyi seperti awal entri di TheDailyWTF!
Grant Palin

Jawaban:

43

Dalam situasi tersebut, mintalah atasan Anda untuk membantu Anda dengan menjauhkan semua orang lain dari Anda (yang memberinya sesuatu untuk dilakukan di tempat lain).

Ketika Anda bangun dan berjalan lagi, minta atasan Anda mengadakan rapat untuk mengevaluasi dan menetapkan prosedur untuk menghindari hal ini terjadi lagi.


sumber
1
+1. Latihan pemulihan bencana adalah cara yang baik untuk mengukur reaksi dan waktu respons. Sayang saya tidak melihat cukup banyak dilakukan.
Desolate Planet
@DP ya, tapi kami tidak bisa melakukan itu karena itu berarti orang dan peralatan tidak tersedia untuk keadaan darurat yang sebenarnya saat latihan sedang berlangsung (ya, saya sudah mendengar argumen itu lebih dari sekali). Tentu saja jika ada cukup banyak orang, dan peralatan, Anda bisa melatih satu tim pada satu set sementara yang lain bertugas ...
jwenting
@jwenting terdengar seperti menyimpan di alarm kebakaran.
9

Hal pertama yang harus dilakukan adalah menghapus gangguan sel sopan mungkin. Tidak ada yang bisa bekerja dengan seseorang yang mengomel di telinga Anda tentang betapa buruknya bagi pelanggan Anda. Ini tentu saja lebih mudah diucapkan daripada dilakukan jika bos Anda adalah seorang maniak, tetapi jika itu masalahnya, Anda mungkin ingin mempertimbangkan untuk mencari pekerjaan lain.

Kemudian buat penilaian cepat dari kerugian sebenarnya yang disebabkan oleh kesalahan dan bagaimana (jika ada) itu dapat dikurangi dengan cepat. Dengan sedikit latihan, Anda juga dapat melakukan pemeriksaan cepat pada file log, yang Anda perlukan untuk membentuk rencana tindakan.

Jika masalahnya rumit, berkonsentrasilah pada bagian yang paling parah. Pikirkan dua atau tiga langkah ke depan sebelum Anda mulai bertindak. Juga, pastikan Anda tahu cara mundur dari rencana apa pun sebelum bertindak.

Dan yang paling penting: Jangan panik!

biziclop
sumber
7

Situasi seperti ini biasa terjadi dalam sistem kontrol industri. Jalur produksi turun di tengah malam, perusahaan biasanya kehilangan ratusan, atau bahkan ribuan dolar per menit , dan mereka mencari Anda untuk memperbaiki masalah. Anda menanganinya demikian:

  1. Jelaskan kepada mereka apa yang Anda ketahui
  2. Jelaskan apa yang Anda tidak tahu (tetapi perlu tahu untuk menyelesaikan masalah)
  3. Jelaskan bagaimana Anda akan mencari tahu apa yang tidak Anda ketahui
  4. Beri mereka perkiraan berapa lama waktu yang dibutuhkan (gunakan rentang)
  5. Abaikan semua yang ada di sekitar Anda saat Anda fokus untuk menindaklanjuti rencana Anda
Scott Whitlock
sumber
6

Hal pertama adalah telah berulang kali mempraktikkan pemulihan bencana (tanpa orang berdiri di atas bahu Anda) sehingga Anda tahu persis langkah apa yang perlu Anda ambil untuk mendiagnosis dan memperbaiki masalah tanpa harus menggunakan pertanyaan di SO untuk mencari tahu apa yang harus dilakukan. Setelah Anda merasa yakin dengan keterampilan pemulihan Anda, tekanan dan stres jauh lebih rendah.

Selanjutnya adalah membuat orang-orang keluar dari rambut Anda saat Anda bekerja. Bos Anda menginginkan sesuatu yang bisa ia datangi kepada bosnya. Beri mereka beberapa informasi tentang apa yang ingin Anda lakukan dan berapa lama untuk melakukan dan kemudian laporan kemajuan secara teratur terutama jika Anda menemukan sesuatu yang berarti akan memakan waktu lebih lama daripada yang Anda katakan kepada mereka. Ya, laporan kemajuan membutuhkan waktu lama untuk memperbaikinya, tetapi mengarahkan bos dan pengguna mengambil lebih banyak waktu. Saya, saya mencari laporan kemajuan setiap kali. Begitu mereka yakin Anda akan tetap mendapatkan informasi terbaru, mereka akan mempercayai Anda untuk melakukan pekerjaan Anda lebih banyak dan meninggalkan Anda sendirian.

Jika pengguna akan diblokir untuk beberapa waktu, maka kirim email kepada mereka jika ini merupakan opsi atau pasang pemberitahuan di situs web, dengan mengatakan situs sedang dalam perbaikan dan kapan mereka harus dapat mencoba kembali. (Ini mungkin salah satu tugas yang bisa Anda berikan kepada atasan Anda untuk menemukan seseorang yang harus dilakukan agar dia tidak keluar dari rambut Anda juga.) Orang-orang kurang rewel tentang tidak bisa masuk ketika mereka tahu seseorang sedang mengerjakan masalah. Ketika semuanya sudah diperbaiki, jika Anda mengirim email, kirim email ke grup yang sama untuk memberi tahu mereka bahwa email tersebut sudah diperbaiki. Tidak dapat memberi tahu Anda berapa kali saya melihat orang lupa ini dan pengguna masih berpikir mereka tidak bisa masuk ketika mereka bisa. Tujuannya bukan hanya untuk menyelesaikan masalah tetapi untuk membuat orang bekerja dengan sistem lagi.

Tarik napas dalam-dalam (napas dalam-dalam menenangkan) dan rasakan masalah ini. Adalah baik untuk menuliskan hal-hal yang perlu Anda lakukan di suatu tempat karena dalam keadaan darurat kadang-kadang synaspes otak Anda tidak menarik informasi secepat biasanya. Anda tidak ingin terlihat seperti orang tolol yang bergumam: "Saya tahu kami punya kayu, di mana itu?"

Jika Anda berada dalam pekerjaan di mana Anda mendukung sistem produksi, yang terbaik adalah menjadi orang yang bereaksi dengan baik dalam keadaan darurat secara umum. Saya tidak yakin Anda benar-benar dapat mempelajari hal ini. Jika seseorang menunggang kuda di depan Anda jatuh (contoh yang tidak begitu acak diambil dari hidup saya) dan sedang berbaring berdarah di tanah, apakah Anda tipe orang yang berdiri di sana dengan mulut ternganga atau adalah orangnya siapa yang memanggil ambulans, memberikan perban tekanan pada pendarahan dan mengarahkan seseorang untuk menangkap kuda? Jika Anda tipe orang pertama, mungkin ini bukan pekerjaan yang tepat untuk Anda.

HLGEM
sumber
2

Katakan kepada mereka ini adalah alasan bagus mengapa Anda memerlukan server cadangan, dan maksud saya server kedua yang berjalan sama dengan yang utama yang dapat segera diganti jika yang pertama turun.

Uang tunai
sumber
Saya telah melihat server cadangan diaktifkan, dan memiliki masalah yang sama dengan server utama. Ini menggandakan biaya perangkat keras, menambah biaya konfigurasi, dan benar-benar membuang-buang biaya. Jika Anda melakukan pekerjaan ketersediaan tinggi, maka tentu saja, tetapi Anda harus menyesuaikan ukuran perangkat keras Anda dengan masalahnya.
Scott Whitlock
satu (ekstrem) contoh sistem cadangan yang dipengaruhi oleh bug yang sama dengan sistem utama adalah Ariane 5 Penerbangan 501
Andre Holzner
2

Sudah cukup buruk ketika Anda dikelilingi dari semua sisi oleh orang-orang yang marah kepada Anda untuk masalah yang Anda buat, meskipun dua kali lebih buruk ketika itu masalah yang tidak Anda buat. Itu terjadi pada saya lebih dari sekali bahwa klien hanya mengkonfigurasinya dengan buruk, artinya kesalahannya dalam berkomunikasi dengan klien (apakah kesalahannya adalah klien karena tidak mendengarkan atau pemasar karena tidak menjelaskan dengan baik, Anda tidak akan pernah tahu).

Bagaimana Anda menjelaskan bahwa mereka mengacau? Tidak pernah tugas yang mudah, terutama ketika bos Anda menghembuskan napas karena ia tidak tahu apa-apa selain menganggap pelanggan selalu benar.

Jadi bagaimana Anda tetap tenang dalam situasi seperti ini? Ingatkan bos Anda dengan sopan bahwa semakin cepat Anda bekerja, semakin cepat masalah ini teratasi.

Neil
sumber
1

Dengan melihat acara ini sebagai kesempatan untuk menunjukkan betapa berharganya saya (untuk bisnis) dengan membuat sistem produksi kembali berjalan secepat mungkin (jika tidak sebelum jam 9 pagi ;-)).

Jelas, berharap saya tidak mematahkannya ;-)


sumber
1
  • sh_t terjadi
  • harus ada solusi untuk suatu masalah
  • jika seseorang di dunia mengetahui solusinya, saya bisa menjadi salah satunya
  • jika tidak ada solusi, kepanikan tidak membantu
  • lagi, sh_t terjadi
ohho
sumber
0

Yah, pasti minta atasan Anda bahwa Anda akan kembali kepadanya ketika masalah Anda terselesaikan; meskipun dalam situasi semacam ini manajemen biasanya melibatkan orang lain untuk menyelesaikannya secepatnya dan kemudian dea, dengan orang "yang bersangkutan" di kemudian hari ... Itulah norma di perusahaan mana pun terlepas dari industrinya; Sedangkan untuk bisnis, Pelanggan biasanya adalah Raja !!

Gaurav Sehgal
sumber
0

Situasi seperti itu hanya memotivasi saya lebih untuk memiliki dokumentasi menyeluruh tentang segala sesuatu, dan rencana menyeluruh untuk menangani segala situasi.

Sekalipun kita tidak dapat memprediksi setiap masalah yang mungkin terjadi, tetapi kita dapat menyelesaikannya, dengan lebih siap, terorganisir, dan didokumentasikan.

crosenblum
sumber
1
Saya tidak pernah memecahkan masalah produksi (yaitu sistem mati) dengan menggunakan dokumentasi.
Marcie
1
Tidak, tetapi jika Anda perlu mencari sesuatu, seperti spesifikasi, definisi tabel, pengaturan server, sebaiknya didokumentasikan.
crosenblum
0

Saya menghabiskan 8 tahun melakukan perawatan pada pembom B52G pada peringatan 5 menit untuk Perang Dunia Ketiga. Itu menempatkan semuanya dalam perspektif untuk saya.

Sistem produksi turun itu penting, tetapi tidak akan membunuh jutaan atau milyaran orang.

Cari tahu apa yang salah, temukan penyebabnya, perbaiki. Jalin komunikasi yang jelas dengan mereka yang penting dan terus beri tahu mereka. Beri tahu atasan Anda apa yang Anda lakukan dan kapan Anda dapat memperbaruinya dapat mencegah berlanjutnya pesan dan percakapan "apakah sudah diperbaiki".

lakukan melalui post-mortem dan cari tahu bagaimana mencegah dan membatasi efek dari insiden tersebut di masa depan.

Jika Anda sedang menelepon, memiliki baterai mati di ponsel atau pager sangat tidak profesional. Ini merupakan skenario umum, tetapi jika ini terjadi pada seseorang yang bekerja untuk saya, akan ada diskusi serius dan jika itu diulang, mereka tidak akan lagi bekerja untuk saya. Ya, saya orang yang keras kepala.

Jim C
sumber