Sejalan dengan pertanyaan tentang kecelakaan sysadmin terbaik , apa kecelakaan terburuk yang pernah Anda alami? Tidak seperti pertanyaan sebelumnya, maksud saya "terburuk" dalam arti sebagian besar kerusakan sistem atau bahaya aktual bagi orang-orang.
Saya akan mulai dengan milik saya:
Kami memiliki dua lemari kabel jarak jauh yang berada di ujung koridor 100 kaki yang memiliki jeruji logam untuk lantai. Setelah kami memasang kabel Cat6, kontraktor membersihkan semua puing yang jatuh melalui kisi ke beton 3 kaki di bawah. Seorang rekan kerja dan saya memasuki koridor untuk memeriksa kemajuan suatu hari tetapi terganggu dan tidak memperhatikan bahwa sepotong kisi telah dipindahkan ke samping. Teman saya melangkah ke udara dan dadanya menabrak palang baja. Dia kehabisan nafas dan cukup sakit untuk mengambil cuti beberapa hari, tetapi untungnya balok baja telah membulat dan ukuran lubangnya sedemikian rupa sehingga dia tidak menampar kepalanya ke lantai atau lantai di bawahnya.
Jelas kami mengetahui bahwa area di mana lantai dilepas sebagian harus ditandai.
Jawaban:
Bayangkan jika Anda akan tinggal di Florida Selatan selama badai Andrew (sedikit sebelum kegilaan 24X7). Semua server Anda dikunci dengan aman di gedung yang mengharuskan Anda memasukkannya dan area yang lebih aman membutuhkan pemindaian tambahan untuk lencana Anda. Bayangkan seorang nitwit yang tidak memperhitungkan perlu pegangan yang sebenarnya di pintu. Bayangkan sebuah kontrak empat juta dolar yang membutuhkan pengiriman, listrik terdekat adalah 230 mil utara, gas dalam pasokan pendek, jalan berbahaya, dan generator yang dirancang untuk menyediakan 48 jam listrik. Tertawa jika Anda akan berada di kumpulan server yang berada di belakang truk, terjebak di jalan tol Mickey Mouse, macet karena kekurangan bensin. Tertawalah jika Anda sama sekali tidak memiliki alasan betapa buruknya semua itu berasal dari sudut pandang logistik, sysadmin, dan operasional.
sumber
Ketika saya bekerja untuk Cisco, saya biasa mendapatkan pelanggan yang telah membeli kartu nirkabel $ 30 dan yang meludah chip ketika driver mereka tidak mau menginstal, atau orang-orang dengan router paling dasar yang dimiliki Cisco yang akan berteriak-teriak dan membicarakan masalah dukungan.
Ini semua dimasukkan dalam konteks suatu hari, ketika saya menerima telepon dari salah satu penyedia kartu terbesar di dunia (pikirkan Amex, Mastercard, Visa, Diners ... sebenarnya itu adalah salah satu merek itu, saya tidak tahu apakah mereka akan menghargai saya menyebutkannya). Saya adalah pendukung garis depan, satu-satunya tugas saya adalah menilai skenario, menilai, dan memasukkannya ke divisi dukungan yang sesuai. Kasus ini adalah satu-satunya kasus Prioritas yang pernah saya lalui.
Seorang pria dari perusahaan kartu menelepon dan menyatakan bahwa hubungan mereka antara mainframe AS timur-dan-pantai-barat sedang putus. Jika sebuah akun dibuat pada satu mainframe, transaksi selalu diproses pada mainframe itu. Tidak masalah jika tautan terdekat Anda selalu dekat dengan mainframe itu. Tetapi pada hari khusus ini, jika Anda memiliki akun di server pantai timur, tetapi Anda berada di pantai barat, transaksi akan ditolak karena tautannya rusak.
Pertanyaan standar ketika menilai kerusakan adalah "Berapa biaya bisnis Anda?" Jawabannya, tenang dan terkumpul, adalah "Sekitar satu juta dolar setiap 30 detik".
Benar-benar memasukkannya ke dalam konteks lain kali Anda merasa tergoda untuk berteriak-teriak dan memuji dukungan pelanggan atas kartu nirkabel senilai $ 30.
(Perlu dicatat bahwa Cisco memiliki tautannya dan berjalan dalam 5 menit setelah ditransfer)
sumber
Sangat umum untuk perintah alias seperti rm atau mv untuk menambahkan opsi '-i' untuk menghindari kesalahan. Tapi ini terjadi di perusahaan saya beberapa waktu yang lalu. Seseorang meletakkan baris ini di root .bashrc di salah satu server.
Kemudian ia menyalin baris dan mengganti rm untuk mv ... atau lebih ia berpikir:
Sisanya adalah sejarah :)
Nah, masalahnya adalah ketika mengajukan pertanyaan 'apakah Anda yakin' mengatakan 'hapus' alih-alih 'pindah' tapi ...
sumber
Kami memasang sistem Point of Sale besar-besaran di pengecer besar (lebih dari 1000 cabang). Server polling pusat adalah semua kode HP-Unix khusus, dan pengujian migrasi produksi ditangani oleh satu orang - putra Direktur IT.
Lelaki ini menghabiskan 7,95 jam sehari untuk membaca novel-novel Fantasi, dan beberapa menit lainnya menjalankan pekerjaan batch-nya untuk memigrasi bangunan malam menjadi produksi. Sistem ini 3 hari sejak ditayangkan di 150 cabang (peluncuran pertama kami "nyata"). Semuanya sudah diatur, dan tim saya baru saja selesai menguji potongan kode terakhir. Kami melakukan perubahan dan memindahkan gambar kami dari pengembangan ke pengujian untuk dijemput oleh putra Direktur TI keesokan paginya.
Saya sampai di sana pada jam 8:00 pagi dan semuanya dalam kekacauan. Ternyata sang putra telah diinstruksikan bahwa setelah menyalin file ke produksi, ia seharusnya masuk ke folder ./ berubah dan ketik "rm -rf *". Ya, seseorang benar-benar mengatakan ini padanya! Tentu saja, dia tidak sengaja melakukan ini pada drive root produksi, yang juga menampung database polling transaksional kami (yang kebetulan offline untuk cadangan pada saat itu, hanya keberuntungan kami).
Hasil: 16 toko percontohan kami harus melayani pelanggan dari kotak cerutu (dalam beberapa kasus, secara harfiah) selama 2 hari. Putra CIO diturunkan ke Server Watcher (dia duduk di ruang server yang dingin membeku dan seharusnya menonton lampu merah ... tapi dia tidak diizinkan menyentuh apa pun ... mereka bahkan tidak memberinya komputer dan mencabut semua login / emailnya). Tim pengembangan kami menarik semua data yang hilang untuk membangun kembali data yang hilang dari cadangan dan pengujian ulang / pengiriman ulang kode.
Kami beruntung membuat peluncuran cabang 150, tapi itu adalah pengalaman peluncuran terburuk yang pernah ada.
sumber
Saya belajar untuk menyelesaikan setiap kalimat perintah sebelum menekan tombol Enter.
Situasi yang sedikit mirip yang saya hadapi adalah ketika saya tidak yakin tentang suatu perintah, saya menekan Home dan mengetik beberapa karakter sampah sehingga perintah tersebut tidak dikenal.
me@mypc:~$ sdkjfhdsudo mv --too-many --switches-to-be --comfortable --working-with --while-running --an-important-command /here/this /there/that
bash: sdkjfhdsudo: command not found
Dan kemudian saya memeriksa opsi lagi, perlahan jika perlu. Apakah ada orang lain yang melakukan hal seperti itu. Tentu saja, Anda harus memastikan bahwa Anda mengetik cukup junk chars (5+) , untuk mencegahnya menjadi perintah lain yang valid dan melakukan kerusakan yang lebih tak terduga.
(Apakah ada kelemahan mendasar dalam hal ini yang belum saya pahami atau situasi di mana, mengingat 5+ karakter sampah, biasanya dalam kunci "asdfghjkl", ia melakukan sesuatu yang tidak dapat diprediksi?)
sumber
bash
(dan mungkin cangkang lain): Alt + Shift + 3 (Alt + #) akan mengomentari perintah.Dalam menginstal ulang sistem operasi laptop untuk seorang manajer, seseorang membuat salinan semua data itu melalui jaringan ke stasiun linux di / tmp. Ada beberapa masalah dan butuh lebih dari satu hari.
... stasiun linux ditutup pada akhir hari ...
Hari berikutnya, ketika mereka pergi untuk mencari data manajer ...
sumber
Saya telah bekerja sebagai SysAdmin selama sekitar 7 bulan, salah satu tugas pertama saya adalah menjalankan server proxy Squid dan saya benar-benar membuatnya berfungsi, seperti 2 minggu setelah itu saya menggunakan BackTrack dan mengacaukan banyak alat " Playing the Hacker "Saya benar-benar meretas server yang agak bagus tapi setelah saya masuk karena beberapa alasan aneh saya melakukan rm -rf dari / dan terhapus dengan baik bagian dari OS (Debian linux).
Saya belajar untuk menyelesaikan setiap kalimat perintah sebelum menekan tombol Enter.
Bersulang.
sumber
Salah satu pelanggan kami menabrak bug sistem file XFS yang tidak biasa pada 24 Desember 2005 ... Ya, pada saat itu saya tidak tahu itu adalah bug kernel Linux tentu saja, saya pikir itu hanya beberapa tersangka biasa (13TB RAID dengan 8KB gratis, kegagalan drive palsu dalam array, dll).
Akhirnya karena filesystem-nya tidak dapat dilepas, saya meminta operator di saluran untuk masuk
xfs_repair -n /dev/whatever
. Hmm, ia ingin menghapus log (jelas, karena FS tidak dapat dipasang), tetapi tidak ada pesan yang terlalu menyenangkan. Jadi pergi untuk itu:xfs_repair /dev/whatever
.15 menit kemudian, dia menelepon kembali:
Hu oh ... Ternyata itu menambah penghinaan pada luka, xfsprogs adalah dari beberapa versi yang akan melakukan kerusakan parah dalam kasus yang tepat ini ... Aduh. 8TB data hilang nyata.
sumber
Fasilitas colo saya mengalami downtime beberapa waktu lalu.
Mereka menurunkan tautan jaringan utama mereka ke internet untuk melakukan beberapa pemeliharaan perangkat lunak pada router, cukup adil.
Namun, pada saat yang sama, penyedia hulu dari tautan sekunder mematikannya untuk melakukan beberapa pengujian (tampaknya mereka telah diberitahu, tetapi telah mislabelled di pusat data)
Sejauh ini sangat buruk ... Namun, pelanggan mengalami kesulitan untuk masuk ke fasilitas untuk membawa downtime menjadi perhatian penyedia .. penyedia hanya memiliki telepon VoIP, yang terhubung melalui ... yah, Anda bisa menebak.
Saya membayangkan Anda tidak akan mempercayai saya, tetapi itu benar, dan masalah catatan di blogosphere :)
sumber
Saya tidak yakin ini bisa menjadi jawaban yang menarik, tetapi saya juga seorang pembuat kode. Saya mengkodekan situs web terakhir saya sepenuhnya pada evoirement produksi, tanpa cadangan sama sekali pada pc saya. Hari yang buruk setelah 16 jam kerja terus-menerus, saya harus mengosongkan partisi, dan cara tercepat untuk melakukannya adalah memformatnya. Saya berlari
fdisk -l
untuk memeriksa apa nama partisi yang harus saya format, dan sayangnya saya membaca baris yang salah, dan memformatnya.Saya kehilangan pekerjaan 6 bulan.
Untungnya, kedua kalinya Anda melakukan hal yang sama Anda melakukannya dengan lebih baik dan lebih cepat, karena Anda sudah tahu bagaimana melakukannya. Sekarang situs webnya hidup. Dan saya punya cadangan: =)
sumber