it-swarm-pt.tech

Algo está queimando na sala do servidor; como posso identificar rapidamente o que é?

No outro dia, notamos um cheiro horrível saindo da sala dos servidores. Para encurtar a história, acabou sendo um dos módulos de bateria que estava queimando na unidade UPS, mas demorou algumas horas para que pudéssemos descobrir. A principal razão pela qual conseguimos descobrir isso é que o visor do no-break finalmente mostrou que o módulo precisava ser substituído.

Aqui estava o problema: toda a sala estava cheia do cheiro. Fazer um teste de cheirar era muito difícil, porque o cheiro se infiltrara em tudo (sem mencionar que nos deixava tonto). Quase erroneamente derrubamos nosso servidor de banco de dados de produção porque é onde o cheiro é mais forte. Os sinais vitais pareciam estar ok (a temperatura da CPU mostrava 60 graus C e a velocidade da ventoinha ok), mas não tínhamos certeza. Aconteceu que o módulo da bateria queimado tinha aproximadamente a mesma altura do servidor no rack e apenas 3 pés de distância. Se fosse uma emergência real, teríamos fracassado miseravelmente.

Realisticamente, as chances de o hardware real do servidor estar queimando é uma ocorrência bastante rara e, na maioria das vezes, veremos o no-break o culpado. Mas com vários racks com várias peças de equipamento, ele pode rapidamente se tornar um jogo de adivinhação. Como é possível determinar com rapidez e precisão qual equipamento está realmente queimando? Percebo que essa pergunta depende muito das variáveis ​​de ambiente, como tamanho da sala, ventilação, localização, etc., mas qualquer entrada seria estimado.

453
Chad Harrison

O consenso geral parece ser que a resposta para sua pergunta vem em duas partes:

Como podemos encontrar a fonte do cheiro ardente engraçado?

Você tem o "Como" muito bem pregado:

  • O "Teste Sniff"
  • Procure fumaça visível/neblina
  • Caminhe pela sala com uma câmera térmica (IR) para encontrar pontos quentes
  • Verifique os painéis de monitoramento e dispositivo para alertas

Você pode melhorar suas chances de encontrar o problema rapidamente de várias maneiras - o monitoramento aprimorado é geralmente o mais fácil. Algumas perguntas a serem feitas:

  • Você recebe alertas de temperatura e outros alertas de saúde do seu equipamento?
  • Seus sistemas UPS relatam falhas no seu sistema de monitoramento?
  • Você recebe alarmes de consumo de corrente do seu equipamento de distribuição de energia?
  • Os detectores de fumaça da sala estão se reportando ao sistema de monitoramento? (e eles podem? )

Quando devemos solucionar problemas em vez de pressionar o Big Red Switch?

Esta é uma pergunta mais interessante.
Atingir o grande interruptor vermelho pode custar à sua empresa uma quantia enorme de dinheiro às pressas: as liberações de agentes limpos podem custar dezenas de milhares de dólares e os custos de interrupção/recuperação após um desligamento de emergência (EPO, "largar a sala") pode ser devastador.
Você não deseja descartar um datacenter porque um capacitor em uma fonte de alimentação estalou e fez a sala cheirar.

Por outro lado, um incêndio em uma sala de servidores pode custar à sua empresa seus dados/equipamentos e, mais importante, a vida de sua equipe.
A solução de problemas "esse cheiro engraçado de queimadura" nunca deve ter precedência sobre a segurança; portanto, é importante ter algumas regras claras sobre a solução de problemas de "pré-incêndio".

As diretrizes a seguir são minhas limitações pessoais que aplico na ausência de (ou além de) quaisquer outros procedimentos/regras claramente definidos - que eles cumpriram bem e eles podem ajudá-lo, mas podem facilmente me matar ou demitir amanhã, então aplique-os por sua conta e risco.

  1. Se você vir fumaça ou fogo, solte a sala
    Isso não é necessário dizer, mas digamos assim: se houver um incêndio ativo (ou fumaça indicando que em breve haverá), você evacua a sala, corta a energia e descarrega o sistema de combate a incêndio.
    Podem existir exceções (exercite algum senso comum), mas essa é quase sempre a ação correta.

  2. Se você estiver solucionando problemas, sempre tenha pelo menos uma outra pessoa envolvida
    Isso ocorre por duas razões. Primeiro, você não quer andar por um datacenter e, de repente, tem um rack subindo na fila que você está andando e ninguém sabe que você está lá. Segundo, a outra pessoa é a sua verificação de sanidade na solução de problemas em vez de deixar a sala e, se você ligar para o Big Red Switch, terá o benefício de ter uma segunda pessoa que concorda com a decisão (ajuda a evitar os aspectos limitadores da carreira) de tal decisão se alguém a questionar mais tarde).

  3. Exercite medidas de segurança prudentes durante a solução de problemas
    Verifique se você sempre tem um caminho de escape (um final aberto de uma linha e um caminho livre para uma saída).
    Mantenha alguém estacionado na liberação do EPO/combate a incêndio.
    Leve consigo um extintor de incêndio (Halon ou outro agente de limpeza, por favor).
    Lembre-se da regra nº 1 acima.
    Em caso de dúvida, saia da sala . Cuide da sua respiração: use um respirador ou uma máscara de oxigênio. Isso pode salvar sua saúde em caso de incêndio químico.

  4. Defina um limite e cumpra-o
    Com mais precisão, defina dois limites:

    • Condição ("Quanto pior vou deixar isso acontecer?") E
    • Tempo ("Quanto tempo vou continuar tentando encontrar o problema antes que seja muito arriscado?").

    Os limites que você definir também podem ser usados ​​para permitir que sua equipe inicie um desligamento ordenado da área afetada; portanto, quando você [~ # ~] faz [~ # ~] puxe a energia para que você não esteja travando um monte de máquinas ativas e seu tempo de recuperação será muito menor, mas lembre-se de que, se o desligamento ordenado estiver demorando muito, você poderá deixar alguns sistemas travarem em nome da segurança .

  5. Confie em seu instinto
    Se você estiver preocupado com a segurança a qualquer momento, desligue a solução de problemas e limpe a sala.
    Você pode ou não deixar a sala com base em um pressentimento, mas reagrupar-se fora da sala em segurança (relativa) é prudente.

Se não houver perigo iminente, você pode optar por trazer o corpo de bombeiros local antes de tomar quaisquer ações drásticas como uma liberação de EPO ou de agente limpo. (Eles podem pedir para você fazer isso de qualquer maneira: o mandato deles é proteger as pessoas e, em seguida, a propriedade, mas eles são obviamente os especialistas em lidar com incêndios; portanto, você deve fazer o que eles dizem!)

Abordamos isso nos comentários, mas também pode ser resumido em uma resposta - @DeerHunter, @Chris, @Sirex e muitos outros contribuíram para a discussão

384
voretaq7

Uma câmera de imagem térmica pode fazer o trabalho e permitir identificar onde está o superaquecimento. Um dispositivo como esse permitirá identificar também a origem de um incêndio ou queima em uma sala cheia de fumaça.

183
ddalcero

Você não faz nenhuma dessas coisas que foram ditas. Você deixa o ambiente perigoso porque tudo o que está sendo bombeado por toda a sala é perigoso para sua saúde e pode realmente atrapalhar seus pulmões. Se houver um cheiro acre de algo queimando na sala que você não conseguir encontrar, ligue para (911 | 112 | 999 | qualquer número de emergência que se encaixe na sua jurisdição) e deixe o fogo (empresa | departamento | brigada) resolver o problema enquanto eles está no ar engarrafado.

As peças do computador contêm todos os tipos de produtos químicos interessantes, incluindo mercúrio , cádmio , chumbo e muitos plásticos nas carcaças. Observe que todos os links criados explicam como exposições de baixo nível podem causar danos duradouros ou até morte rápida. Este é um ambiente que pode ser imediatamente perigoso para a vida e a saúde .

... realmente, se algo estiver queimando, não gaste horas cheirando a fumaça. Se você não conseguir identificá-lo e agir imediatamente para contê-lo, saia.

139
Jeff Ferland

Se você tivesse um monitoramento adequado no no-break (geralmente via SNMP), a própria unidade deveria ter tocado os sinos no seu sistema de monitoramento. Caso contrário, converse com seu fornecedor sobre isso. Está com defeito ou o seu sistema de monitoramento não está configurado corretamente.

Se algo ativo estiver realmente queimando, deve estar reclamando de alguma forma ou simplesmente estar fora da rede, o que também deve causar um alarme.

Se é algo como um trilho de força real queimando através de isolamento e não estiver em uma PDU inteligente, voltamos à sua pergunta original, que é "como encontro uma coisa queimada?" E acho que a resposta correta é "Entre no EPO e descubra. Seus servidores de produção provavelmente não são importantes o suficiente para arriscar vidas".

76
mfinni

Essa é uma daquelas situações em que

XKCD Die Hard sysadmin

não se aplica, você deve chamar um profissional

Firefighter in protective gear

Qualquer outra coisa é simplesmente estúpida.

43
user9517

Como alguém cuja carreira anterior era como tecnologia eletrônica, tenho experiência com "cheiros ardentes" que não eram incêndios. Isso não é incomum.

Eu não desligaria um data center por cheiro. Fumaça é outra questão, algo está realmente queimando (geralmente, mas um capacitor de tântalo do tamanho de uma ervilha também pode encher uma sala de fumaça). É incrível o cheiro que um componente frito em uma fonte de alimentação pode causar.

Um termômetro TIC ou IR (uma ferramenta útil e muito mais barata que um TIC) não o mostraria necessariamente, pois o componente não gera muito calor e está dentro de um gabinete. Mas verifique se os dispositivos não estão funcionando, use as ferramentas de monitoramento. Para um cheiro como esse, 95% das vezes será uma fonte de alimentação que afeta o desempenho de todo o dispositivo.

40
Malcolm

Gosto das respostas por imagem infravermelha ou termômetro, mas talvez o que também ajudaria seja um verdadeiro "detector de odor". Afinal, o que desencadeou sua cautela foi o cheiro. Fumaça, calor, IR etc. são todos substitutos.

Algo como este: from Shinyei . Eu pessoalmente nunca os usei ou os vi usados ​​em um datacenter. Mas, pelo menos teoricamente, deve ser uma ferramenta interessante. Se você tem dinheiro para gastar com esse dispositivo, é isso.

http://www.sca-shinyei.com/odormeter ou http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Dá-lhe uma força de odor, bem como classificação. Portanto, deve-se voltar ao odor. O diabo está nos detalhes, é claro. Como é sensível, mascarando o odor de fundo falso etc.

Uma vantagem em relação às medições puramente baseadas em temperatura é que muitas vezes o odor ocorre em um ponto ou limiar muito anterior. Ou se o componente superaquecido estiver oculto por um corpo/fiação oculta, etc., é mais fácil detectar moléculas que escapam do que um ponto quente na linha de visão.

Outra situação é um cheiro não relacionado ao calor. Tivemos um vazamento no circuito de refrigeração antes e os cheiros do refrigerante também eram peculiares. Nem vou entrar no caso agora antigo de um roedor morto nos dutos. :)

Fiquei surpreso com a sensibilidade desses sensores. Aparentemente, H2S/mercaptanos etc. (culpados comuns) são detectáveis ​​em níveis sub ppm.

enter image description here

19
curious_cat