Soru Sunucu odasında bir şey yanıyor; Ne olduğunu hızlı bir şekilde nasıl tanımlayabilirim?


Geçen gün, sunucu odasından çıkan korkunç bir yanık kokusu görüyoruz. Uzun lafın kısası, UPS ünitesinde yanan batarya modüllerinden biri oldu, ama bunu anlayabilmemiz için birkaç saat geçti. Anlayabilmemizin temel nedeni, UPS ekranının modülün değiştirilmesi gerektiğini gösterdi.

Problem buydu: bütün oda kokusuyla doluydu. Koku testi yapmak çok zordu çünkü koku herşeye sızmıştı. Neredeyse yanlışlıkla yanlışlıkla bizim üretim veritabanı sunucusunu aldık çünkü kokunun en güçlü olduğu yer burası. Hayati tamam görünüyordu (CPU temps 60 derece C gösterdi ve fan hızları tamam), ama emin değildik. Sadece öyle oldu ki yanmış pil modülü raftaki sunucuyla aynı yükseklikteydi ve sadece 3 ft uzakta. Bu gerçek bir acil durum olsaydı, sefil bir şekilde başarısız olurduk.

Gerçekçi olarak, gerçek sunucu donanımının yanma ihtimali oldukça nadir görülür ve çoğu zaman UPS'e suçluya bakacağız. Ancak birkaç ekipmanla birkaç rafta, hızlı bir tahmin oyunu olabilir. Bir ekipmanın hangi parçada yandığını hızlı ve doğru bir şekilde nasıl belirler? Bu sorunun oda büyüklüğü, havalandırma, yer vb. Çevre değişkenlerine büyük ölçüde bağımlı olduğunu anlıyorum ama herhangi bir girdi takdir edilecek.


448
2018-04-04 14:22


Menşei


@DeerHunter Tanrıya şükürler olsun, günün sonu geldi ve buralarda çok az insan vardı. Yapıcı eleştirileriniz için teşekkür ederim ve amirimi sistemde tutmaya karar vermede neyi riske ettiklerini bilmesini sağlamaya çalışacağım. - Chad Harrison
@hidroparadise - birinin söyleyecek cesareti var "DURDURMAK Bu şeyi doğru şekilde yapmıyoruz. ”Denetim otoritesiniz güvenlik kurallarını anlamıyorsa, omurganın büyümesi ve köşeleri kesmek için zorlama dışında gerçekten yapılabilecek pek fazla şey yoktur. - Deer Hunter
@DeerHunter: Yanan bir şey kokladığında uygun cevap ne olurdu? Görünür duman yok, sadece yanmış bir koku. Tüm veri merkezini kapatır, birkaç saatliğine havalandırır mısınız, sonra koku geri gelene kadar sunucuları tek tek açıyor musunuz? Küçük bir 25 raflı veri merkezinin, kontrol edebilecek 1.000 sunucuya sahip olabileceği, bu durumun bir "koku" için çok fazla kesinti sürdüğü - OP, görünür duman veya yangın bildirmedi. - Johnny
@Johnny - OP'den alıntı: "Bütün oda kokusuyla doluydu. Koku testi yapmak çok zordu çünkü kokusu herşeye sızdı. (Bize ışık saçtığından bahsetme)" Sorunuzu cevaplama - evet, odayı havalandır ve sorun gider sistematik. Başka bir şey sorumsuz. - Deer Hunter
Öyleyse, OP'nin kokuyu ele alışını eleştirenler, bir koku ve bir yangın / duman arasındaki aciliyette bir fark olmadığını gösterir. Evinizde yanan bir şey kokuyor, ama duman görmüyor ve alarm duymuyorsanız, sizi ve ailenizi evden atar ve 911'i arar mısınız? - trpt4him


Cevaplar:


Genel fikir birliği, sorunuzun cevabının iki bölümden oluşması gibi görünüyor:

Komik yanan kokunun kaynağını nasıl bulabiliriz?

"Nasıl", oldukça iyi bir şekilde çivilenmişsin:

  • "Sniff Testi"
  • Görünür duman / bulanıklık ara
  • Sıcak noktaları bulmak için odayı termal (IR) kamera ile yürü
  • Uyarılar için izleme ve cihaz panellerini kontrol edin

Sorunu bir çok yolla hızlı bir şekilde bulma şansınızı artırabilirsiniz - gelişmiş izleme genellikle en kolay olanıdır. Sorulacak bazı sorular:

  • Cihazınızdan sıcaklık ve diğer sağlık uyarıları alıyor musunuz?
  • UPS sistemleriniz izleme sisteminize arıza bildiriyor mu?
  • Güç dağıtım ekipmanınızdan akım çeken alarmlar alıyor musunuz?
  • Oda duman dedektörleri izleme sistemine rapor veriyor mu? (ve yapabilirler mi?)

Big Red Switch'e karşı ne zaman müdahale etmeliyiz?

Bu daha ilginç bir soru.
Büyük kırmızı düğmeye basarak şirketinize büyük miktarda para harcayabilirsiniz: Temiz ajan satışları onbinlerce dolar ve acil bir güç kesintisinden sonra kesinti / geri kazanım maliyetleri olabilir (EPO, "odayı bırakma" ) yıkıcı olabilir.
Bir veri merkezini düşürmek istemezsiniz çünkü bir güç kaynağındaki kondansatör attı ve odayı kokladı.

Tersine, bir sunucu odasındaki bir yangın, şirketinizin veri / ekipmanına ve daha da önemlisi personelinizin hayatına mal olabilir.
Sorun giderme "o komik yanma kokusu" asla güvenlikten öncelikli olmamalıdırBu nedenle, "yangın öncesi" koşullarını gidermek için bazı açık kurallara sahip olmak önemlidir.

Aşağıdaki kurallar kişisel sınırlamalarım açıkça tanımlanmış başka bir prosedürün / kuralların yokluğunda (veya ek olarak) uygulandığım için bana çok iyi hizmet ettiler ve size yardımcı olabilirler, ama beni yarın öldürme veya kovma gibi kolayca yapabilirler. kendi riski.

  1. Duman veya ateş görürseniz odayı bırakın.
    Bu söylenmeden devam etmeli, ama yine de söyleyelim: Eğer aktif bir yangın varsa (ya da yakın zamanda orada olacağını belirten bir duman varsa), odayı tahliye edin, gücü kesin ve yangın söndürme sistemini boşaltın.
    İstisnalar bulunabilir (bazı sağduyu alıştırması), ancak bu neredeyse her zaman doğru eylemdir.

  2. Sorun giderme işlemine devam ediyorsanız, her zaman en az bir kişi daha var
    Bu iki nedenden dolayı. Birincisi, bir veri merkezinde dolaşmak istemiyorsunuz ve bir anda, aşağıya doğru yürüdüğünüz sırada bir raf var ve kimse orada olduğunu bilmiyor. İkincisi, diğer kişi, odayı düşürmeye karşı sorun giderme konusundaki akıl kontrolünüzdür ve Big Red Switch'i çağırmak için çağrı yapmanıza izin verirseniz, ikinci bir kişinin kararla uyumlu olmasını sağlayın (kariyer sınırlama özelliklerinden kaçınmaya yardımcı olur) Böyle bir karardan sonra birisi daha sonra soru soruyorsa).

  3. Sorun giderme sırasında dikkatli güvenlik önlemleri alın
    Her zaman bir kaçış yoluna sahip olduğunuzdan emin olun (bir satırın açık bir sonu ve bir çıkışa açık bir yol).
    EPO / yangın söndürme sürümüne sabitlenmiş birini tutun.
    Yanınızda bir yangın söndürücü bulundurun (Halon veya başka bir temizleyici, lütfen).
    Yukarıdaki 1. numaralı kuralı hatırlayın.
    Şüphede kalınca, odadan çık. Nefes almayla ilgili dikkat edin: bir solunum cihazı veya oksijen maskesi kullanın. Bu kimyasal yangın durumunda sağlığınızı koruyabilir.

  4. Bir limit ayarla ve ona bağlı
    Daha doğrusu, ayarlanmış iki sınırları:

    • Şart ("Bunun ne kadar kötüye gitmesine izin veririm?")
    • zaman ("Sorunu çok riskli olmadan bulmaya ne kadar devam edeceğim?").

    Belirlediğiniz sınırlar, ekibinizin etkilenen alanın düzenli olarak kapatılmasına başlaması için de kullanılabilir. YAP Gücü çekin, bir grup aktif makineyi çökertmiyorsunuz ve iyileşme süreniz çok daha kısa olacak, ancak düzenli kapatma işlemi çok uzun sürdüğü takdirde, güvenlik adına birkaç sistemin çökmesine izin vermeniz gerektiğini unutmayın.

  5. Bağırmana güven
    Herhangi bir zamanda güvenlik konusunda endişeleriniz varsa, sorun giderme özelliğini arayın ve odayı temizleyin.
    Odayı bir bağırsak hissine göre düşürebilir veya bırakamazsınız, ancak odanın dışında (göreceli) güvenli bir şekilde yeniden gruplamak güvenlidir.

Tehlikeli bir tehlike yoksa, EPO veya temiz-ajan salımı gibi herhangi bir eylem yapmadan önce yerel itfaiyeyi getirmeyi tercih edebilirsiniz. (Size şunu söyleyebilirler: Görevleri insanları korumak, sonra mülk sahibi olmaktır, fakat onlar kesinlikle ateşle uğraşmada uzmanlardır, böylece ne dediklerini yapmalısınız!)

Bunu yorumlarda ele aldık, ama aynı zamanda bir cevapta da özetlenebilir - @DeerHunter, @Chris, @Sirex ve diğer pek çok kişi tartışmaya katkıda bulundu.


380
2018-04-04 14:29



Üniversite yeni bir veri merkezi kurmaya gittim. Oldukça sofistike bir EPO / Yangın Söndürme sistemi uyguladılar. Koruduğu ekipman milyonlarca dolardı ve aynı zamanda okulun tıbbi kısmı için milyonlarca dolarlık araştırma için kullanılıyordu. Tabii ki gerekliyse kırmızı düğmeye basılırdı ama kırmızı düğmeye basılırsa söyleniyor. oldu hit, sadece sıfırlama 200.000 ABD dolarına yakındı. Vergi Ödeyen Dolar Anahtarın gerektiğinde vurulduğunda, ona vuran adamın artık bir işi olmayacağı konusunda emin olabilirsiniz. - Ryan
Arkadaş sistemi için +1. Bence de EPO'yu kullanan ve orada yangın söndürme de yapan DC'ler var. Elektro kesilen adamın üzerinde halotron dökmek istemeden EPO'ya gitmek istediğiniz birçok durum var. Bir EPO ciddi bir anlaşmadır, ancak bir "DC'deki anlaşmada her şeyi yok et" veya en azından olmamalı. DC'deki oyuncular büyük kırmızı butonu ve yangın söndürme sistemini butona basmanın etkisini tartmak için yeterince iyi anlamalıdır. Bir EPO aslında olabilir durdurmak Örneğin bir ateş ve DC'yi kaydedin. - chris
Görmediğim önemli bir not, yanan bir koku çıkarmak için bir şeyin başarısız olduğu zamanın çoğunluğunun, yanacak her şeyin ne olacağıdır. koku tespit edilmeden önce kendini söndür ve başarısız ekipmanın dışında hiçbir şey yakmadan. Bazen bir ekipman parçası güce sahip olduğu sürece yanmaya devam edecektir, ancak eğer duman görüyorsa, ekipmanı tanımlamak, gücü sadece kesmek ve dumanın yakında temizlenip temizlenmediğini veya sürekli olarak kötüleşip bozulmadığını görmek mümkün olmalıdır. - supercat
@ryan: Büyük kırmızı düğmeye basarsanız, bu kadar çok vergi mükellefi dolar tutarsa, sorumlu kişi, çalışanları tehlikeye sokmayan yerel itfaiyeyle küçük olayları çözmek için bir plan hazırlamıştır. - Christoph
@ryan Son zamanlarda gördüğüm CERN hakkında bir televizyon raporunu hatırlatıyor: Kamera ekibi ve muhabir gerçekten sistemdeki cesaretlere ve bir an kamera adamlarından birine götürüldü. neredeyse sırt çantasıyla birlikte kırmızı bir acil durum kapatma düğmesine basıldı - yeniden başlatma maliyetleri hakkında düşünen personel adama kalp krizi vererek ... - Hagen von Eitzen


Termal Görüntüleme Kamerası işi yapabilir ve aşırı ısınmanın nerede olduğunu belirleyebilmenizi sağlar. Bunun gibi bir cihaz, dumanla dolu bir odada ateşin ya da yanmanın kaynağını da belirlemenizi sağlar.


182
2018-04-05 04:59



Termal kameralar günümüzde bir grand altında gidiyor ve büyük bir sunucu odası çalıştırıyorsanız, sahip olmaları gereken bir araç. - rackandboneman
Bir T.I.C. çok pahalı değil ve bir veri merkezinde veya büyük bir sunucu odasında çok kullanışlıdır. Sadece aşırı ısınmış kablolar veya ekipman gibi problemler için değil, aynı zamanda önleyici veya erken bir sorun tespiti, soğutma optimizasyonu, hava akışı vb. - ddalcero
Lazer ateşli silah gibi Buucuz bir alternatif - MichaelHouse
Elektrikçiler de genellikle termal kameralara sahiptir. (Güç dağıtım panellerimizin her yıl bir termal görüntüleme kontrolü veya herhangi bir büyük kablolama işinden sonra, bir hosting şirketinde çalıştığım zaman standartdı). - voretaq7
Bir termal kamera çok büyük sınırlamalara sahiptir: 1. Görüş alanı kullanımı engelleyebilir 2. Ortamınız çok yoğun olabilir. [Büyük yangınlar tespit edilecek ancak küçük değiller] 3. Bir eşik belirlemek için sıcaklıkların ortalamasına ihtiyaç duyulacaktır. - monksy


Bunlardan hiçbirini yapmıyorsun söylenenler. Tehlikeli ortamı terk edersiniz, çünkü tüm odaya pompalanan her şey sağlığınıza zararlıdır ve ciğerlerinizi kirletebilir. Eğer bulamadığınız odada yanan bir şey kokulu bir koku varsa, (911 | 112 | 999 | herhangi bir acil durum numaranız yargı alanınıza uyuyorsa) arayın ve yangının (şirket | departman | tugayı) Şişelenmiş havaya.

Bilgisayar parçaları dahil olmak üzere her türlü ilginç kimyasallar içerir Merkür, kadmiyum, öncülük etmekve çok sayıda plastik kasada. Yaptığım tüm bağlantıların, düşük seviye maruziyetin ne kadar kalıcı hasara ve hatta hızlı ölüme neden olabileceğini açıkladığına dikkat edin. Bu olabilecek bir ortam Hayati ve sağlığa hemen tehlikeli.

... gerçekten, bir şey yanıyorsa, dumanları koklamak için saatler harcamayın. Bunu tanımlayamaz ve hemen onu içerecek şekilde hareket ederseniz, dışarı çıkın.


137
2018-04-04 14:27



Buna ek olarak, eğer klima ve yangın söndürme sistemi ile entegre edilmiş duman dedektörleri ile bir "gerçek" veri merkezinde meydana gelirse, yangın alarmlarının söndürüleceğini ve argon veya CO2 ile otomatik olarak kapatılacağını ve bu sayede otomatik olarak su basacağını belirtmek gerekir. Etrafta koşmak ve ekipman koklamak hakkında bir düşünce bile olamazdı. - the-wabbit
@ syneticon-dj Bu bağlıdır tip Dedektörlerin kurulu. İyonlaşma detektörleri yangın söndürmeyi tetiklemiş olabilir, ancak optik duman dedektörleri olan yerlerde çalıştım (ve şu anda ev sahibi ekipmanı) - Bunlar gezmeden önce görünür duman (veya en azından iyi bir bulanıklık) gerektirir. - voretaq7
Keşke daha fazlasını yapabilirdim. tartışmalı olma riski altında, 'profesyonel bir' itfaiyeci ileriye giden tek yoldur. - Iain
Evet, eski bir itfaiyeci olarak, vitesim olmadan orada kalmazdım. Bir yangın çıktığında bile zehirli gazlar yüzünden paketlenmiş halde kalmak için eğitildik. Profesyonelleri arayacak olsaydım, sen de yapmalısın! - Jeff Ferland
@Michael, gördüğüm tasarımlarda tavan duman dedektörlerine güvenmiyordu, ancak dönüş havası akışında fotoelektrik dedektörler vardı. Tetiği gördüğüm tek zaman, argonit sisteminin söküldüğü ve dolaplardan birine bir duman kaynağının yerleştirildiği bir test rutininde oldu. Çalışmasını bekler gibi çalıştı. Neyse ki, gerçek yangınlarla uğraşmak zorunda kalmamıştım. - the-wabbit


KGK üzerinde (genellikle SNMP üzerinden) düzgün bir izleme gerçekleştirdiyseniz, ünitenin kendi izleme sisteminizdeki çanlar üzerinde durması gerekir. Eğer yapmadıysa, satıcınıza bununla konuşun. Ya arızalı ya da izleme sisteminiz doğru şekilde yapılandırılmamış.

Aktif olan bir şey gerçekten yanıyorsa, bir şekilde bunun hakkında şikayette bulunmalı ya da ağa bağlı olmalı ve aynı zamanda bir alarm vermelidir.

Yalıtımla yanan gerçek bir güç demiryolu gibi bir şeyse ve akıllı bir PDU'da değilse, o zaman orijinal soruna geri dönüyoruz, "yanan bir şeyi nasıl bulabilirim?" Ve bence uygun cevap “EPO'yu vur ve anla.” Üretim sunucuların muhtemelen hayatları riske atmaya yetecek kadar önemli değil.


76
2018-04-05 10:49



EPO ne anlama geliyor? - Midhat
Acil Durum Kapatma ... tüm gücü odaya ayıran büyük kırmızı düğme. Çoğunlukla ateşe verildiğinde. - Grant
Empatik bir +1, +1,000 oy verecekti. Düğmeye bas, tahliye et, bekle, daha sonra işleri hallet. Her zamanki gibi yangın ve dumanla iş yapmak (ve herhangi bir sorunu gidermeye çalışmak), bir mühendisin yapabileceği en büyük hatalardan biridir. - Deer Hunter
@chris Saygıyla "EPO, Bırak, Bekle" ye katılmam gerekiyor - EPO'yu ve / veya üretim aracıyla dolu bir oda için temizlik maddesinin serbest bırakılması çoğu zaman aradığımız şey olabilir. Kariyer Sınırlama Hareketi. Eğer değilse aktif, görünür Bazı ilk araştırmaları yapan bazı ekipmanlardan gelen yangın veya duman izi genellikle Doğru Şey'dir. Elbette, soruşturmadaki herhangi bir noktada uygun kırmızı düğmelere basarak odadan civatalamaya kesinlikle hazırlıklı olmalısınız. - voretaq7
Muhtemelen mükemmel bir izleme sistemi, UPS panelinin "Modülü Değiştir" dediği ana kadar bunu yakalayamasa bile, izleme sisteminizin bu tür şeyleri dikkatinize sunmasını istediğinizi söylediğinizi söyler. Bir dahaki sefere bir modül Cuma günü saat 19: 30'da kimsenin olmadığı zamanlarda başarısız olabilir ve izleme uyarısı, tam teşekküllü bir acil durum haline gelmeden önce, tekrar gelip sorunu ele almanızı sağlayacaktır. İzlemeyi FACP'nize bağlayabiliyorsanız, dumanınız ve / veya ısı sensörleriniz, güç raylarını ve benzerlerini yakan yalıtım hakkında sizi uyarabilir. - voretaq7


Bu durumlardan biri

XKCD Die Hard sysadmin

uygulanmaz, profesyonel çağırmalısınız

Firefighter in protective gear

Başka bir şey sadece aptalca.


43
2018-04-05 12:50



Bu açıkça en iyi cevaptır. :) - Citizen
@Navin No sen İtfaiyedeki adamlar bunu yapma. - Iain


Eski kariyeri elektronik bir teknoloji olan biri olarak, yangın olmayan “yanan kokular” ile ilgili tecrübem var. Bu yaygın değil.

Koku için veri merkezini kapatmayacağım. Duman başka bir şeydir, bir şey gerçekten yakıcıdır (genellikle, fakat bezelye büyüklüğünde bir tantal kondansatörün bir odayı dumanla doldurabilir). Bir güç kaynağında kızartılmış bir bileşenin ne kadar kokusunu alacağı şaşırtıcı.

Bir TIC veya IR termometresi (kullanışlı bir alet ve bir TIC'den çok daha ucuz), bileşen çok fazla ısı üretmediğinden ve bir durumda olduğu için bunu göstermeyebilir. Ancak cihazların çalışmadığını kontrol edin, izleme araçlarını kullanın. Bunun gibi bir koku için, zamanın% 95'i, tüm cihazın performansını etkileyen bir güç kaynağı olacaktır.


40



+1, üflenmiş güç kaynakları yaygındır. Yüksek hava akımı oranlarına sahip çoğu veri merkezlerinde duman hızla dışarı atılır ve kokunun kaynağını bulmak zordur. Ancak küçük bir odada, koku oldukça kötü olabilir ve tüm odaya hızla yayılabilir. - Stefan Lasiewski


IR görüntüleme ya da termometre cevaplarını seviyorum ama belki de yardımcı olan şey gerçek bir "koku dedektörü". Ne de olsa dikkatinizi tetikleyen şey koku oldu. Duman, ısı, IR vb. Tüm vekillerdir.

Bunun gibi bir şey: from Shinyei . Kişisel olarak hiç kullanmadım ya da onları bir veri merkezinde kullandım. Ama en azından teorik olarak düzgün bir araç olmalı. Eğer bu gizmoda harcanacak paranız varsa.

http://www.sca-shinyei.com/odormeter veya http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Size sınıflandırma kadar kokusu da verir. Böylece kokunun içine girebilmek mümkün olmalıydı. Şeytanın detayları elbette. Ne kadar hassas, sahte arka plan kokusunu maskelemek vb.

Tamamen sıcaklığa dayalı ölçümlere göre bir avantaj, çoğu zaman çok daha erken bir noktada veya eşikte meydana gelen bir koku olmasıdır. Veya aşırı ısınmış bileşen bir vücut / gizli kablolama vb. Tarafından gizlenmişse, görüş hattındaki bir sıcak noktadan kaçan molekülleri tespit etmek daha kolaydır.

Başka bir durum, ısıya bağlı olmayan bir koku. Daha önce bir soğutma devresi sızıntısı geçirdik ve soğutma sıvısı kokuyordu. Kanallarda kemirgenlerin öldüğü eski bir antik olaya bile gitmeyeceğim. :)

Bu sensörlerin ne kadar duyarlı olduğuna şaşırdım. Anlaşılacağı gibi H2S / merkaptanlar vs. (olağan suçlular) sub ppm seviyelerinde tespit edilebilir.

enter image description here


19