Kecelakaan SysAdmin Terburuk [ditutup]

8

Sejalan dengan pertanyaan tentang kecelakaan sysadmin terbaik , apa kecelakaan terburuk yang pernah Anda alami? Tidak seperti pertanyaan sebelumnya, maksud saya "terburuk" dalam arti sebagian besar kerusakan sistem atau bahaya aktual bagi orang-orang.

Saya akan mulai dengan milik saya:

Kami memiliki dua lemari kabel jarak jauh yang berada di ujung koridor 100 kaki yang memiliki jeruji logam untuk lantai. Setelah kami memasang kabel Cat6, kontraktor membersihkan semua puing yang jatuh melalui kisi ke beton 3 kaki di bawah. Seorang rekan kerja dan saya memasuki koridor untuk memeriksa kemajuan suatu hari tetapi terganggu dan tidak memperhatikan bahwa sepotong kisi telah dipindahkan ke samping. Teman saya melangkah ke udara dan dadanya menabrak palang baja. Dia kehabisan nafas dan cukup sakit untuk mengambil cuti beberapa hari, tetapi untungnya balok baja telah membulat dan ukuran lubangnya sedemikian rupa sehingga dia tidak menampar kepalanya ke lantai atau lantai di bawahnya.

Jelas kami mengetahui bahwa area di mana lantai dilepas sebagian harus ditandai.

Ward
sumber
1
Ini harus disetel ke komunitas wiki
Joe
Lihat juga serverfault.com/questions/7902
3dinfluence

Jawaban:

1

Bayangkan jika Anda akan tinggal di Florida Selatan selama badai Andrew (sedikit sebelum kegilaan 24X7). Semua server Anda dikunci dengan aman di gedung yang mengharuskan Anda memasukkannya dan area yang lebih aman membutuhkan pemindaian tambahan untuk lencana Anda. Bayangkan seorang nitwit yang tidak memperhitungkan perlu pegangan yang sebenarnya di pintu. Bayangkan sebuah kontrak empat juta dolar yang membutuhkan pengiriman, listrik terdekat adalah 230 mil utara, gas dalam pasokan pendek, jalan berbahaya, dan generator yang dirancang untuk menyediakan 48 jam listrik. Tertawa jika Anda akan berada di kumpulan server yang berada di belakang truk, terjebak di jalan tol Mickey Mouse, macet karena kekurangan bensin. Tertawalah jika Anda sama sekali tidak memiliki alasan betapa buruknya semua itu berasal dari sudut pandang logistik, sysadmin, dan operasional.

ojblass
sumber
17
Uuuh tolong jangan salah paham, tapi saya tidak tahu apa yang sebenarnya terjadi dalam cerita, karena semua "Laugh Ifs" ...
Mark Henderson
1
Itu lucu, saya suka generator 48 jam. Suatu tempat saya memeriksa sekali memiliki 48 jam bahan bakar di situs dan 14 hari di halaman utilitas dan mereka memiliki truk bahan bakar untuk mengisi ulang generator, sehingga mereka tidak harus mengandalkan orang lain. Mereka juga perusahaan hidro.
SpaceManSpiff
Meskipun tidak menjadi narasi ... keseluruhan cerita ada di atas.
ojblass
Truk bahan bakar adalah ide cerdas. Tahun lalu saya mengunjungi pusat data Seattle yang hanya memiliki beberapa hari bahan bakar diesel di lokasi. Saya tidak terkesan: hanya sekali dalam ~ 40 tahun sistem bus Seattle pernah ditutup selama sehari, dan itu terutama disebabkan oleh truk bahan bakar yang tidak muncul di pangkalan untuk mengirim bahan bakar diesel selama acara salju besar. Saya tidak dapat membayangkan bahwa gempa bumi besar, banjir, atau bencana regional lainnya akan menyebabkan bahan bakar lebih tersedia daripada badai salju.
Skyhawk
25

Ketika saya bekerja untuk Cisco, saya biasa mendapatkan pelanggan yang telah membeli kartu nirkabel $ 30 dan yang meludah chip ketika driver mereka tidak mau menginstal, atau orang-orang dengan router paling dasar yang dimiliki Cisco yang akan berteriak-teriak dan membicarakan masalah dukungan.

Ini semua dimasukkan dalam konteks suatu hari, ketika saya menerima telepon dari salah satu penyedia kartu terbesar di dunia (pikirkan Amex, Mastercard, Visa, Diners ... sebenarnya itu adalah salah satu merek itu, saya tidak tahu apakah mereka akan menghargai saya menyebutkannya). Saya adalah pendukung garis depan, satu-satunya tugas saya adalah menilai skenario, menilai, dan memasukkannya ke divisi dukungan yang sesuai. Kasus ini adalah satu-satunya kasus Prioritas yang pernah saya lalui.

Seorang pria dari perusahaan kartu menelepon dan menyatakan bahwa hubungan mereka antara mainframe AS timur-dan-pantai-barat sedang putus. Jika sebuah akun dibuat pada satu mainframe, transaksi selalu diproses pada mainframe itu. Tidak masalah jika tautan terdekat Anda selalu dekat dengan mainframe itu. Tetapi pada hari khusus ini, jika Anda memiliki akun di server pantai timur, tetapi Anda berada di pantai barat, transaksi akan ditolak karena tautannya rusak.

Pertanyaan standar ketika menilai kerusakan adalah "Berapa biaya bisnis Anda?" Jawabannya, tenang dan terkumpul, adalah "Sekitar satu juta dolar setiap 30 detik".

Benar-benar memasukkannya ke dalam konteks lain kali Anda merasa tergoda untuk berteriak-teriak dan memuji dukungan pelanggan atas kartu nirkabel senilai $ 30.

(Perlu dicatat bahwa Cisco memiliki tautannya dan berjalan dalam 5 menit setelah ditransfer)

Mark Henderson
sumber
3
Itu kemungkinan satu-satunya jawaban jujur ​​untuk pertanyaan yang pernah Anda dengar!
SpaceManSpiff
6
Itu cara terbaik yang pernah saya dengar seseorang berkata "berhenti mengajukan pertanyaan tolol dan perbaiki SEKARANG ". Terutama untuk dukungan teknis.
Ernie
10

Sangat umum untuk perintah alias seperti rm atau mv untuk menambahkan opsi '-i' untuk menghindari kesalahan. Tapi ini terjadi di perusahaan saya beberapa waktu yang lalu. Seseorang meletakkan baris ini di root .bashrc di salah satu server.

alias rm='rm -i'

Kemudian ia menyalin baris dan mengganti rm untuk mv ... atau lebih ia berpikir:

alias rm='rm -i'
alias mv='rm -i'

Sisanya adalah sejarah :)

Nah, masalahnya adalah ketika mengajukan pertanyaan 'apakah Anda yakin' mengatakan 'hapus' alih-alih 'pindah' ​​tapi ...

chmeee
sumber
Aku sangat menyesal ... perintah sejarah tidak akan membantumu menemukan racun besar yang kau keluarkan untuk dirimu sendiri.
ojblass
4

Kami memasang sistem Point of Sale besar-besaran di pengecer besar (lebih dari 1000 cabang). Server polling pusat adalah semua kode HP-Unix khusus, dan pengujian migrasi produksi ditangani oleh satu orang - putra Direktur IT.

Lelaki ini menghabiskan 7,95 jam sehari untuk membaca novel-novel Fantasi, dan beberapa menit lainnya menjalankan pekerjaan batch-nya untuk memigrasi bangunan malam menjadi produksi. Sistem ini 3 hari sejak ditayangkan di 150 cabang (peluncuran pertama kami "nyata"). Semuanya sudah diatur, dan tim saya baru saja selesai menguji potongan kode terakhir. Kami melakukan perubahan dan memindahkan gambar kami dari pengembangan ke pengujian untuk dijemput oleh putra Direktur TI keesokan paginya.

Saya sampai di sana pada jam 8:00 pagi dan semuanya dalam kekacauan. Ternyata sang putra telah diinstruksikan bahwa setelah menyalin file ke produksi, ia seharusnya masuk ke folder ./ berubah dan ketik "rm -rf *". Ya, seseorang benar-benar mengatakan ini padanya! Tentu saja, dia tidak sengaja melakukan ini pada drive root produksi, yang juga menampung database polling transaksional kami (yang kebetulan offline untuk cadangan pada saat itu, hanya keberuntungan kami).

Hasil: 16 toko percontohan kami harus melayani pelanggan dari kotak cerutu (dalam beberapa kasus, secara harfiah) selama 2 hari. Putra CIO diturunkan ke Server Watcher (dia duduk di ruang server yang dingin membeku dan seharusnya menonton lampu merah ... tapi dia tidak diizinkan menyentuh apa pun ... mereka bahkan tidak memberinya komputer dan mencabut semua login / emailnya). Tim pengembangan kami menarik semua data yang hilang untuk membangun kembali data yang hilang dari cadangan dan pengujian ulang / pengiriman ulang kode.

Kami beruntung membuat peluncuran cabang 150, tapi itu adalah pengalaman peluncuran terburuk yang pernah ada.

Bip bip
sumber
1
Setidaknya mereka menurunkannya
SpaceManSpiff
9
Aneh. Biasanya, orang lain yang terlibat akan segera dipecat, dan putra direktur dipromosikan.
kubanczyk
@kubanskamac - awesome
Beep beep
Itu biasanya semacam penurunan pangkat yang mengatakan "berhenti, kau bajingan bodoh, jadi kami tidak harus memecatmu". Yang membuat saya bertanya-tanya apakah dia pernah melakukannya atau tidak.
Ernie
1
Dia tidak pernah berhenti ... dia masih di sana (lebih dari 10 tahun kemudian), dan kembali ke posisi lamanya (pada dasarnya koordinator peluncuran dan dukungan helpdesk). Dia turun di ruang server selama beberapa tahun.
Bip bip
2

Saya belajar untuk menyelesaikan setiap kalimat perintah sebelum menekan tombol Enter.

Situasi yang sedikit mirip yang saya hadapi adalah ketika saya tidak yakin tentang suatu perintah, saya menekan Home dan mengetik beberapa karakter sampah sehingga perintah tersebut tidak dikenal.

me@mypc:~$ sdkjfhdsudo mv --too-many --switches-to-be --comfortable --working-with --while-running --an-important-command /here/this /there/that

bash: sdkjfhdsudo: command not found

Dan kemudian saya memeriksa opsi lagi, perlahan jika perlu. Apakah ada orang lain yang melakukan hal seperti itu. Tentu saja, Anda harus memastikan bahwa Anda mengetik cukup junk chars (5+) , untuk mencegahnya menjadi perintah lain yang valid dan melakukan kerusakan yang lebih tak terduga.

(Apakah ada kelemahan mendasar dalam hal ini yang belum saya pahami atau situasi di mana, mengingat 5+ karakter sampah, biasanya dalam kunci "asdfghjkl", ia melakukan sesuatu yang tidak dapat diprediksi?)

Dave
sumber
9
Karakter sampah baik-baik saja, tetapi mungkin dua pendekatan yang lebih umum (dan deterministik!): Menempel # di bagian depan perintah, atau mengawali semuanya dengan 'gema'?
Murali Suriar
Saya dengan @Murali, 'echo' atau dry run membantu terutama dalam debugging untuk mencegah kehilangan data.
LiraNuna
3
Aktif bash(dan mungkin cangkang lain): Alt + Shift + 3 (Alt + #) akan mengomentari perintah.
Belmin Fernandez
2

Dalam menginstal ulang sistem operasi laptop untuk seorang manajer, seseorang membuat salinan semua data itu melalui jaringan ke stasiun linux di / tmp. Ada beberapa masalah dan butuh lebih dari satu hari.

... stasiun linux ditutup pada akhir hari ...

Hari berikutnya, ketika mereka pergi untuk mencari data manajer ...

chmeee
sumber
1

Saya telah bekerja sebagai SysAdmin selama sekitar 7 bulan, salah satu tugas pertama saya adalah menjalankan server proxy Squid dan saya benar-benar membuatnya berfungsi, seperti 2 minggu setelah itu saya menggunakan BackTrack dan mengacaukan banyak alat " Playing the Hacker "Saya benar-benar meretas server yang agak bagus tapi setelah saya masuk karena beberapa alasan aneh saya melakukan rm -rf dari / dan terhapus dengan baik bagian dari OS (Debian linux).

Saya belajar untuk menyelesaikan setiap kalimat perintah sebelum menekan tombol Enter.

Bersulang.


sumber
Wah Anda meretas ke server Anda sendiri, lalu secara tidak sengaja menghapus root? Seperti, jarimu terpeleset?
Matt Simmons
4
Lihat saya pwn n3wb ini, saya punya IP-nya. 127.0.0.1!
Chris Thorpe
1

Salah satu pelanggan kami menabrak bug sistem file XFS yang tidak biasa pada 24 Desember 2005 ... Ya, pada saat itu saya tidak tahu itu adalah bug kernel Linux tentu saja, saya pikir itu hanya beberapa tersangka biasa (13TB RAID dengan 8KB gratis, kegagalan drive palsu dalam array, dll).

Akhirnya karena filesystem-nya tidak dapat dilepas, saya meminta operator di saluran untuk masuk xfs_repair -n /dev/whatever. Hmm, ia ingin menghapus log (jelas, karena FS tidak dapat dipasang), tetapi tidak ada pesan yang terlalu menyenangkan. Jadi pergi untuk itu: xfs_repair /dev/whatever.

15 menit kemudian, dia menelepon kembali:

mengapa saya tidak bisa melihat sebagian besar file?

Hu oh ... Ternyata itu menambah penghinaan pada luka, xfsprogs adalah dari beberapa versi yang akan melakukan kerusakan parah dalam kasus yang tepat ini ... Aduh. 8TB data hilang nyata.

wazoox
sumber
Itu banyak data yang akan hilang!
Mark Henderson
1

Fasilitas colo saya mengalami downtime beberapa waktu lalu.

Mereka menurunkan tautan jaringan utama mereka ke internet untuk melakukan beberapa pemeliharaan perangkat lunak pada router, cukup adil.

Namun, pada saat yang sama, penyedia hulu dari tautan sekunder mematikannya untuk melakukan beberapa pengujian (tampaknya mereka telah diberitahu, tetapi telah mislabelled di pusat data)

Sejauh ini sangat buruk ... Namun, pelanggan mengalami kesulitan untuk masuk ke fasilitas untuk membawa downtime menjadi perhatian penyedia .. penyedia hanya memiliki telepon VoIP, yang terhubung melalui ... yah, Anda bisa menebak.

Saya membayangkan Anda tidak akan mempercayai saya, tetapi itu benar, dan masalah catatan di blogosphere :)

gbjbaanb
sumber
1

Saya tidak yakin ini bisa menjadi jawaban yang menarik, tetapi saya juga seorang pembuat kode. Saya mengkodekan situs web terakhir saya sepenuhnya pada evoirement produksi, tanpa cadangan sama sekali pada pc saya. Hari yang buruk setelah 16 jam kerja terus-menerus, saya harus mengosongkan partisi, dan cara tercepat untuk melakukannya adalah memformatnya. Saya berlari fdisk -luntuk memeriksa apa nama partisi yang harus saya format, dan sayangnya saya membaca baris yang salah, dan memformatnya.

Saya kehilangan pekerjaan 6 bulan.

Untungnya, kedua kalinya Anda melakukan hal yang sama Anda melakukannya dengan lebih baik dan lebih cepat, karena Anda sudah tahu bagaimana melakukannya. Sekarang situs webnya hidup. Dan saya punya cadangan: =)

cedivad
sumber
+1 untuk 6 bulan kerja