Sesuatu terbakar di ruang server; bagaimana saya bisa dengan cepat mengidentifikasi apa itu?

454

Suatu hari, kami melihat bau terbakar yang mengerikan keluar dari ruang server. Singkatnya, akhirnya menjadi salah satu modul baterai yang terbakar di unit UPS, tetapi butuh beberapa jam sebelum kita bisa mengetahuinya. Alasan utama kami dapat mengetahuinya adalah karena tampilan UPS akhirnya menunjukkan bahwa modul perlu diganti.

Inilah masalahnya: seluruh ruangan dipenuhi dengan bau. Melakukan tes mengendus sangat sulit karena baunya telah menyusup ke segala sesuatu (belum lagi itu membuat kami pusing). Kami hampir keliru menurunkan server basis data produksi kami karena di situlah aromanya paling kuat. Tanda vital tampaknya ok (suhu CPU menunjukkan 60 derajat C, dan kecepatan kipas oke), tapi kami tidak yakin. Kebetulan modul baterai yang terbakar kira-kira sama tingginya dengan server di rak dan hanya 3 kaki jauhnya. Jika ini benar-benar darurat, kita akan gagal total.

Secara realistis, kemungkinan perangkat keras server aktual terbakar adalah kejadian yang cukup langka dan sebagian besar waktu kita akan melihat pada UPS pelakunya. Tetapi dengan beberapa rak dengan beberapa peralatan, itu bisa dengan cepat menjadi permainan menebak. Bagaimana seseorang menentukan dengan cepat dan akurat peralatan apa yang terbakar? Saya menyadari pertanyaan ini sangat tergantung pada variabel lingkungan seperti ukuran ruangan, ventilasi, lokasi, dll, tetapi input apa pun akan dihargai.

Chad Harrison
sumber
34
@ Patrick Hunter Terima kasih ya Tuhan, itu adalah akhir hari dan ada sangat sedikit orang di builing. Terima kasih atas kritik konstruktif Anda, dan saya pasti akan memberi tahu atasan saya apa nyawanya yang berisiko dalam memutuskan untuk mempertahankan sistem.
Chad Harrison
12
@hydroparadise - seseorang harus berani mengatakan " BERHENTI Kami tidak melakukan hal ini dengan benar". Jika penyelia Anda tidak memahami aturan keselamatan, tidak banyak yang bisa dilakukan, kecuali menumbuhkan tulang belakang dan tidak tunduk pada keinginan untuk mengambil jalan pintas.
Pemburu Rusa
112
@DeerHunter: Apa tanggapan yang tepat ketika Anda mencium sesuatu yang terbakar? Tidak ada asap yang terlihat, hanya bau terbakar. Apakah Anda mematikan seluruh pusat data, melampiaskannya selama beberapa jam, lalu nyalakan server satu per satu sampai baunya kembali? Pusat data 25 rak kecil dapat memiliki 1.000 server untuk diperiksa, itu adalah banyak downtime untuk "bau" - OP tidak melaporkan asap atau api yang terlihat.
Johnny
24
@Johnny - Mengutip OP: "seluruh ruangan dipenuhi dengan bau. Melakukan tes mengendus sangat sulit karena bau telah menyusup ke segala sesuatu (belum lagi itu membuat kami pusing)" Menjawab pertanyaan Anda - ya, Anda harus melampiaskan ruangan, dan memecahkan masalah secara sistematis . Ada lagi yang tidak bertanggung jawab.
Deer Hunter
14
Jadi, apakah mereka yang kritis terhadap penanganan OP terhadap aroma menyarankan bahwa tidak ada perbedaan urgensi antara bau dan api / asap? Jika Anda mencium sesuatu yang membakar di rumah Anda tetapi tidak melihat asap dan tidak mendengar alarm, apakah Anda terburu-buru keluar dari rumah dan menelepon 911?
trpt4him

Jawaban:

383

Tampaknya konsensus umum adalah bahwa jawaban untuk pertanyaan Anda datang dalam dua bagian:

Bagaimana kita menemukan sumber bau terbakar yang lucu?

Anda telah mendapatkan "How" dengan cukup baik:

  • "Tes Mengendus"
  • Cari asap / kabut yang terlihat
  • Jelajahi ruangan dengan kamera termal (IR) untuk menemukan hot spot
  • Periksa panel pemantauan dan perangkat untuk peringatan

Anda dapat meningkatkan peluang Anda menemukan masalah dengan cepat dalam beberapa cara - pemantauan yang lebih baik seringkali paling mudah. Beberapa pertanyaan untuk diajukan:

  • Apakah Anda mendapatkan peringatan suhu dan kesehatan lainnya dari peralatan Anda?
  • Apakah sistem UPS Anda melaporkan kesalahan pada sistem pemantauan Anda?
  • Apakah Anda mendapatkan alarm penarikan arus dari peralatan distribusi daya Anda?
  • Apakah detektor asap ruangan melapor ke sistem pemantauan? (dan bisakah mereka? )

Kapan sebaiknya kita memecahkan masalah versus menekan Sakelar Merah Besar?

Ini pertanyaan yang lebih menarik.
Menekan tombol merah besar dapat membuat perusahaan Anda sangat tergesa-gesa dalam waktu singkat: Pembebasan agen bersih dapat mencapai puluhan ribu dolar, dan biaya pemadaman / pemulihan setelah pematian darurat (EPO, "menjatuhkan kamar" ) dapat menghancurkan.
Anda tidak ingin menjatuhkan pusat data karena kapasitor dalam catu daya muncul dan membuat ruangan berbau.

Sebaliknya, kebakaran di ruang server dapat membebani data / peralatan perusahaan Anda, dan yang lebih penting adalah nyawa staf Anda.
Pemecahan masalah "bau pembakaran yang lucu" tidak boleh diutamakan daripada keamanan , jadi penting untuk memiliki beberapa aturan yang jelas tentang mengatasi masalah kondisi "pra-kebakaran".

Pedoman yang mengikuti adalah keterbatasan pribadi saya yang saya terapkan dengan tidak adanya (atau sebagai tambahan) prosedur / aturan lain yang jelas - mereka telah melayani saya dengan baik dan mereka dapat membantu Anda, tetapi mereka dapat dengan mudah membuat saya terbunuh atau dipecat besok, jadi terapkan itu dengan risiko Anda sendiri.

  1. Jika Anda melihat asap atau api, jatuhkan ruangan.
    Ini harus pergi tanpa berkata tetapi katakan saja: Jika ada kebakaran aktif (atau asap menunjukkan bahwa akan segera ada), Anda mengevakuasi ruangan, memotong daya, dan melepaskan api. sistem penindasan.
    Pengecualian mungkin ada (gunakan akal sehat), tetapi ini hampir selalu merupakan tindakan yang benar.

  2. Jika Anda melanjutkan untuk memecahkan masalah, selalu melibatkan setidaknya satu orang lain.
    Ini karena dua alasan. Pertama, Anda tidak ingin berkeliaran di pusat data dan tiba-tiba ada rak naik di baris Anda berjalan dan tidak ada yang tahu Anda ada di sana. Kedua, orang lain adalah pemeriksaan kewarasan Anda tentang pemecahan masalah versus menjatuhkan ruangan, dan jika Anda membuat panggilan untuk menekan Big Red Switch Anda memiliki manfaat memiliki orang kedua yang setuju dengan keputusan (membantu untuk menghindari aspek yang membatasi karir keputusan seperti itu jika seseorang mempertanyakannya nanti).

  3. Melaksanakan langkah-langkah keamanan yang bijaksana saat pemecahan masalah
    Pastikan Anda selalu memiliki jalur keluar (ujung terbuka dari baris dan jalur yang jelas untuk keluar).
    Biarkan seseorang tetap berada di rilis EPO / pencegah kebakaran.
    Bawa pemadam api bersama Anda (Halon atau agen kebersihan lainnya, silakan).
    Ingat aturan # 1 di atas.
    Jika ragu, tinggalkan ruangan . Jaga pernapasan Anda: gunakan respirator atau masker oksigen. Ini mungkin menyelamatkan kesehatan Anda jika terjadi kebakaran kimia.

  4. Tetapkan batas dan patuhi
    lebih tepatnya, tetapkan dua batas:

    • Kondisi ("Seberapa parah saya akan membiarkan ini?"), Dan
    • Waktu ("Berapa lama saya akan terus berusaha menemukan masalah sebelum terlalu berisiko?").

    Batas yang Anda tetapkan juga dapat digunakan untuk membiarkan tim Anda memulai pematian tertib area yang terkena, jadi ketika Anda DO menarik daya, Anda tidak menabrak banyak mesin yang aktif, dan waktu pemulihan Anda akan jauh lebih pendek, tetapi ingat bahwa jika pematian tertib terlalu lama, Anda mungkin harus membiarkan beberapa sistem mengalami gangguan atas nama keselamatan.

  5. Percayai nyali
    Anda. Jika Anda khawatir tentang keselamatan kapan saja, matikan pemecahan masalah dan hapus ruang.
    Anda mungkin atau mungkin tidak menjatuhkan ruangan berdasarkan firasat, tetapi pengelompokan ulang di luar ruangan dalam (relatif) keselamatan adalah bijaksana.

Jika tidak ada bahaya yang akan terjadi, Anda dapat memilih membawa pemadam kebakaran setempat sebelum mengambil tindakan drastis seperti pelepasan EPO atau agen kebersihan. (Mereka mungkin menyuruh Anda melakukannya: Mandat mereka adalah untuk melindungi orang, lalu properti, tetapi mereka jelas ahli dalam menangani kebakaran sehingga Anda harus melakukan apa yang mereka katakan!)

Kami telah membahas hal ini dalam komentar, tetapi mungkin juga dirangkum dalam jawaban juga - @DeerHunter, @Chris, @Sirex, dan banyak lainnya berkontribusi pada diskusi

voretaq7
sumber
30
Universitas I pergi untuk menginstal pusat data baru. Mereka menerapkan sistem EPO / Fire Suppression yang sangat canggih. Peralatan yang dilindungi adalah dalam jutaan dolar dan itu juga digunakan untuk jutaan dolar penelitian untuk bagian medis sekolah. Tentunya jika itu diperlukan tombol merah akan terkena tetapi, yang sedang berkata jika tombol merah itu memukul, hanya ulang itu dekat dengan $ 200.000 dolar AS. Dolar Pembayar Pajak Anda dapat yakin sekali bertaruh bahwa jika saklar dipukul ketika tidak diperlukan, orang yang memukulnya tidak akan lagi memiliki pekerjaan.
Ryan
28
+1 untuk sistem buddy. Saya pikir itu sedikit gila bahwa ada DC di luar sana yang menggunakan EPO juga membuang pencegah kebakaran juga. Ada banyak situasi di mana Anda ingin EPO tanpa ingin membuang halotron di seluruh pria mendapatkan sengatan listrik. EPO adalah masalah serius tetapi bukan "hancurkan semua yang ada di DC," atau setidaknya tidak seharusnya. Orang-orang di DC semoga memahami tombol merah besar dan sistem pemadaman api dengan cukup baik untuk menimbang efek dari menekan tombol. EPO sebenarnya bisa menghentikan api dan menyelamatkan DC, misalnya.
chris
13
Catatan penting yang belum saya lihat disebutkan adalah bahwa sebagian besar waktu ketika sesuatu gagal sehingga mengeluarkan bau terbakar, apa pun yang terbakar akan memadamkan dirinya sendiri sebelum bau terdeteksi dan tanpa membakar apa pun di luar peralatan yang gagal. Kadang-kadang sepotong peralatan akan terus membara selama ia memiliki kekuatan, tetapi jika seseorang melihat asap, maka itu mungkin untuk mengidentifikasi peralatan, memutus daya hanya untuk itu, dan melihat apakah asap segera hilang atau terus bertambah buruk.
supercat
1
@ryan: Jika menekan tombol merah besar menghabiskan banyak uang pembayar pajak, orang yang bertanggung jawab semoga menyusun rencana untuk menyelesaikan insiden kecil dengan pemadam kebakaran setempat yang tidak melibatkan karyawan yang membahayakan.
Christoph
3
@ryan Itu mengingatkan saya pada laporan tv tentang CERN yang saya lihat baru-baru ini: Tim kamera dan reporter benar-benar dibawa ke nyali sistem dan dan suatu saat salah satu dari kawan-kawan kamera hampir menabrak tombol mematikan darurat merah dengan ranselnya - memberikan serangan jantung dekat kepada staf pria berpikir tentang biaya reboot ...
Hagen von Eitzen
183

Kamera Thermal Imaging dapat melakukan pekerjaannya, dan memungkinkan Anda mengidentifikasi di mana overheating berada. Perangkat seperti ini memungkinkan Anda mengidentifikasi asal api atau membakar ruangan yang dipenuhi asap.

ddalcero
sumber
30
Kamera termal berlaku di bawah grand saat ini, dan jika Anda menjalankan ruang server besar mereka adalah alat yang layak dimiliki.
rackandboneman
16
TIC tidak begitu mahal dan sangat berguna di pusat data atau ruang server besar. Tidak hanya jika terjadi masalah seperti kabel atau peralatan yang kepanasan, tetapi juga sebagai pencegahan atau deteksi dini masalah, optimalisasi pendinginan, aliran udara, dll.
ddalcero
39
Pistol suhu laser, seperti ini , adalah alternatif yang murah
MichaelHouse
4
@mfinni Electricians juga sering memiliki kamera termal. (Pemeriksaan pencitraan termal panel distribusi daya kami setiap tahun, atau setelah pekerjaan pemasangan kabel utama, merupakan standar ketika saya bekerja di perusahaan hosting).
voretaq7
3
Kamera termal memiliki batasan sangat besar: 1. Bidang pandang dapat mencegah penggunaan 2. Lingkungan Anda mungkin sangat padat. [Kebakaran besar akan terlihat tetapi bukan yang kecil] 3. Rata-rata suhu akan dibutuhkan untuk menentukan ambang batas
monksy
138

Anda tidak melakukan hal-hal ini yang telah dikatakan. Anda meninggalkan lingkungan yang berbahaya karena apa pun yang dipompa melalui seluruh ruangan berbahaya bagi kesehatan Anda dan mungkin benar-benar mengacaukan paru-paru Anda. Jika ada bau tajam dari sesuatu yang terbakar di ruangan yang tidak dapat Anda temukan, hubungi (911 | 112 | 999 | apa pun nomor darurat yang sesuai dengan yurisdiksi Anda) dan biarkan api (perusahaan | departemen | brigade) mengatasinya sementara mereka Sedang mengudara.

Komponen komputer mengandung semua jenis bahan kimia yang menarik termasuk merkuri , kadmium , timah , dan banyak plastik dalam selubung. Perhatikan bahwa semua tautan yang saya buat menjelaskan bagaimana eksposur tingkat rendah dapat menyebabkan kerusakan abadi atau bahkan kematian cepat. Ini adalah lingkungan yang dapat langsung berbahaya bagi kehidupan dan kesehatan .

... jadi sungguh, jika ada sesuatu yang terbakar, jangan menghabiskan berjam-jam menghirup asapnya. Jika Anda tidak dapat mengidentifikasi dan segera bertindak untuk menampungnya, keluarlah.

Jeff Ferland
sumber
18
Harus ditambahkan bahwa jika ini terjadi di pusat data "nyata" dengan detektor asap yang terintegrasi dengan AC dan sistem pemadam yang dipasang, alarm kebakaran akan berbunyi dan ruangan akan disegel dan dibanjiri dengan Argon atau CO2 secara otomatis, jadi bahkan tidak ada pemikiran tentang berlarian dan mengendus peralatan.
the-wabbit
8
@ syneticon-dj Ini tergantung pada jenis detektor yang dipasang. Detektor ionisasi mungkin telah menyebabkan pemadaman api, tetapi saya telah bekerja di (dan saat ini menjadi host peralatan di) tempat-tempat yang memiliki detektor asap optis - Mereka membutuhkan asap yang terlihat (atau setidaknya kabut yang baik) sebelum naik.
voretaq7
3
Saya berharap saya bisa lebih mengangkat ini. dengan risiko menjadi kontroversial, pemadam kebakaran 'dapatkan seorang profesional' adalah satu-satunya jalan ke depan.
user619714
19
Ya, sebagai mantan petugas pemadam kebakaran, saya tidak akan tinggal di sana tanpa peralatan saya. Bahkan ketika api padam, kita dilatih untuk tetap berkemas karena gas beracun. Jika saya akan memanggil pro, Anda juga harus!
Jeff Ferland
1
@Michael desain yang saya lihat tidak bergantung pada detektor asap langit-langit tetapi memiliki detektor fotolistrik pada aliran udara balik. Satu-satunya waktu saya melihat pemicunya adalah selama pengujian rutin di mana sistem argonite telah terlepas dan sumber asap telah ditempatkan di salah satu lemari. Itu bekerja seperti yang saya harapkan akan berhasil. Syukurlah, saya tidak pernah harus berurusan dengan api sungguhan.
the-wabbit
76

Jika Anda memiliki pemantauan yang tepat pada UPS (biasanya melalui SNMP), unit itu sendiri harus membunyikan bel pada sistem pemantauan Anda. Jika tidak, bicarakan dengan vendor Anda tentang itu. Entah tidak berfungsi atau sistem pemantauan Anda tidak dikonfigurasi dengan benar.

Jika sesuatu yang aktif benar-benar terbakar, ia harus mengeluhkannya dengan cara tertentu, atau hanya mematikan jaringan, yang juga harus menyebabkan alarm.

Jika itu seperti rel listrik yang sebenarnya terbakar melalui isolasi, dan itu bukan pada PDU cerdas, maka kita kembali ke pertanyaan awal Anda, yaitu "bagaimana cara menemukan benda yang terbakar?" Dan saya pikir jawaban yang tepat adalah "Pukul EPO dan cari tahu. Server produksi Anda mungkin tidak cukup penting untuk mempertaruhkan nyawa."

mfinni
sumber
13
Apa maksudnya EPO?
Midhat
39
Emergency Power Off ... tombol merah besar yang memotong semua daya ke ruangan. Sebagian besar untuk saat itu terbakar.
Berikan
11
+1 yang empatik, akan memilih +1.000. Tekan tombolnya, evakuasi, tunggu, bereskan nanti. Melakukan bisnis seperti biasa dengan api dan asap hadir (dan mencoba memecahkan masalah apa pun) adalah salah satu kesalahan terburuk yang bisa dilakukan seorang insinyur.
Deer Hunter
36
@ Chris Saya harus dengan hormat tidak setuju pada "EPO, Tinggalkan, Tunggu" - Mengaktifkan pelepasan EPO dan / atau agen bersih untuk ruangan yang penuh peralatan produksi bisa sangat sering kita sebut sebagai Karir Pembatas Karier . Jika tidak ada api aktif, asap yang terlihat atau jejak asap yang berasal dari beberapa peralatan yang melakukan penyelidikan awal biasanya adalah Hal yang Benar. Tentu saja Anda harus benar-benar siap untuk lari dari ruangan sambil menekan tombol merah yang sesuai di setiap titik dalam penyelidikan Anda.
voretaq7
13
Kemungkinan bahkan sistem pemantauan yang sempurna tidak akan menangkap ini sampai saat yang sama panel UPS mengatakan "Ganti Modul" - yang dikatakan Anda tentu ingin sistem pemantauan Anda untuk membawa hal-hal seperti itu menjadi perhatian Anda. Lain kali modul mungkin gagal pada pukul 19:30 pada hari Jumat ketika tidak ada orang di sekitar, dan peringatan pemantauan akan membuat Anda kembali dan menangani masalah sebelum berkembang menjadi keadaan darurat yang lengkap. Jika Anda dapat mengikat pemantauan ke FACP Anda, sensor asap dan / atau panas Anda bahkan dapat memperingatkan Anda tentang isolasi yang membakar rel listrik dan sejenisnya.
voretaq7
43

Ini adalah salah satu situasi di mana

XKCD Die Hard sysadmin

tidak berlaku, Anda harus memanggil seorang profesional

Pemadam kebakaran di alat pelindung

Ada lagi yang benar-benar bodoh.

Iain
sumber
ini jelas jawaban terbaik. :)
Warga Negara
@Navin Tidak, kamu jangan orang-orang di pemadam kebakaran melakukan itu.
user619714
40

Sebagai seseorang yang mantan karirnya sebagai teknologi elektronik, saya memiliki pengalaman dengan "bau yang membakar" yang bukan kebakaran. Ini tidak biasa.

Saya tidak akan mematikan pusat data karena bau. Asap adalah masalah lain, ada sesuatu yang benar-benar terbakar (biasanya, tetapi kapasitor tantalum seukuran kacang dapat memenuhi ruangan dengan asap juga). Sungguh menakjubkan betapa banyak aroma komponen goreng dalam catu daya dapat membuat.

Termometer TIC atau IR (alat yang berguna dan jauh lebih murah daripada TIC) tidak perlu menunjukkannya karena komponennya tidak menghasilkan banyak panas sama sekali dan ada di dalam kasing. Tetapi periksa perangkat yang tidak berfungsi, gunakan alat pemantauan Anda. Untuk bau seperti itu maka 95% dari waktu itu akan menjadi catu daya yang mempengaruhi kinerja seluruh perangkat.

Malcolm
sumber
3
+1, catu daya yang meledak adalah hal biasa. Di sebagian besar pusat data dengan laju aliran udara yang tinggi, asap tersebut dihembuskan dengan cepat dan sulit untuk menemukan sumber penciumannya. Namun di sebuah ruangan kecil, baunya bisa sangat buruk, dan dapat dengan cepat menyebar ke seluruh ruangan.
Stefan Lasiewski
19

Saya suka pencitraan IR atau jawaban termometer tapi mungkin yang juga akan membantu adalah "detektor bau" yang nyata. Setelah semua yang memicu kehati-hatian Anda adalah bau. Asap, panas, IR dll. Semuanya adalah pengganti.

Sesuatu seperti ini: dari Shinyei . Saya pribadi tidak pernah menggunakannya atau bahkan melihatnya digunakan di pusat data. Tapi setidaknya secara teoritis itu harus menjadi alat yang rapi. Jika Anda punya uang untuk dibelanjakan pada alat ini.

http://www.sca-shinyei.com/odormeter atau http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Ini memberi Anda kekuatan bau serta klasifikasi. Jadi masuk ke bau itu harus dimungkinkan. Iblis ada di detail tentu saja. Seberapa sensitif itu, menutupi bau latar belakang palsu dll.

Satu keuntungan dibandingkan pengukuran berdasarkan suhu murni adalah bahwa sering kali bau muncul pada titik atau ambang yang jauh lebih awal. Atau jika komponen yang terlalu panas disembunyikan oleh benda / kabel tersembunyi dll. Lebih mudah untuk mendeteksi molekul yang keluar dari hot spot line-of-sight.

Situasi lain adalah bau yang tidak berhubungan dengan panas. Kami pernah mengalami kebocoran sirkuit pendingin sebelumnya dan bau cairan pendingin juga aneh. Aku bahkan tidak akan pergi ke kasus kuno tentang hewan pengerat mati di saluran. :)

Saya terkejut betapa sensitifnya sensor-sensor ini. H2S / mercaptan, dll. (Penyebab biasanya) dapat dideteksi pada tingkat sub ppm.

masukkan deskripsi gambar di sini

curious_cat
sumber