it-swarm-pt.tech

Qual é a sua lista de verificação quando tudo explode?

Os usuários não conseguem acessar seus e-mails, o CEO não consegue acessar a home page da empresa e seu pager simplesmente dispara com um código "911". O que você faz quando tudo explode?

40
Jon Galloway

A primeira resposta é manter a calma! Aprendi que da maneira mais difícil que o pânico geralmente piora as coisas. Uma vez que isso é alcançado, a próxima coisa é realmente determinar qual é o problema. Reclamações de usuários e gerentes chegarão a você de todos os ângulos, dizendo o que ELES não podem fazer, mas não qual é o problema.

Depois de conhecer o problema, você pode iniciar o plano para corrigi-lo e começar a oferecer aos usuários irritados uma escala de tempo!

35
Sam Cogan

Fique calmo

Não surte. Respirar! (No diafragma, isso ajuda.) Se você estudou meditação, isso também pode ajudar.

Quando se depara com um estresse extremo, seu corpo entra no modo de fugir ou lutar, porque pensa que está em uma situação de vida ou morte. Nesse momento, seu corpo realmente bombeia menos sangue para algumas partes do cérebro, diminuindo funções como o raciocínio. Isso reduz efetivamente o seu QI, já que o instinto, em vez da racionalidade, começa a dominar as funções cerebrais. Se você já assistiu a uma discussão acalorada ou pode testemunhar esses sintomas, as emoções das pessoas se exaltam e a racionalidade tira férias. Mais tarde, quando as pessoas tiverem a chance de se acalmar, serão mais propensas a aceitar ter cometido um erro ou estarem erradas e serão mais capazes de ver o outro lado, mas no calor do momento, menos.

Manter a compostura e manter o juízo sobre você manterá seu cérebro funcionando em plena capacidade e garantirá que você tome decisões racionais com base em evidências e razão, em vez de emoção e medo.

Triagem

A aplicação eficiente de recursos limitados para obter o maior benefício com o menor custo é extremamente importante aqui. Tome as decisões o mais cedo possível sobre quais coisas precisam ser corrigidas AGORA, o que pode demorar um pouco (horas, dias) e o que pode esperar indefinidamente. Aprenda também a perceber quando algo não pode ser salvo e não vale a pena salvar (por exemplo, metade do roteador derreteu, mesmo que seja o único, você não pode salvá-lo, comprar um novo e colocá-lo no local após a pressa ou encontrar algo que possa preencher a lacuna temporariamente).

Manter a consciência situacional

Não permita que sua atenção fique presa por algum problema interessante ou por algo que você ainda não entende. Mantenha o foco no quadro geral e em fazer as coisas mais importantes funcionarem.

se o método científico

Forme uma hipótese. Determine como você testaria essa hipótese. Reúna dados para testar a hipótese. Procure também dados que não confirmam. Refine sua hipótese e repita o ciclo quantas vezes forem necessárias até ter confiança suficiente em sua hipótese para agir.

Seja pragmático

Agora não é a hora do dogma. Não há problema em usar alguns atalhos aqui e ali ao se recuperar de um desastre. Isso está essencialmente acumulando dívida técnica. Em muitas empresas, falha catastrófica significa perda de receita catastrófica. É melhor fazer as coisas funcionarem, mesmo que em condições instáveis, do que se distrair e arriscar o sustento da sua empresa. Como sempre, o julgamento é extremamente importante aqui. Às vezes, faz sentido sustentar um ventilador de caixa apontado para um rack de servidor, às vezes não.

Cuide-se

Há quanto tempo você trabalha nesta emergência? Quando foi a última vez que você bebeu água? Quando foi a última vez que você comeu? Há quanto tempo você está acordado? Não se queime apenas porque há uma emergência, reserve um tempo para se manter hidratado, alimentado e descansado (caso seja uma tarefa longa e de vários dias).

Recrutar Ajuda

Certamente, existem muitas pessoas talentosas na sua empresa, motivadas e capazes de prestar ajuda. Seja cauteloso em deixar muitas pessoas correndo e causando problemas um para o outro. Também tenha cuidado com as pessoas irritantes, colocando-as através de um "firedrill". Encontre pessoas que já querem ajudar, faça-as trabalhar em tarefas direcionadas e verifique se as pessoas estão se comunicando.

Comunicar

A comunicação é crítica. Nada é tão assustador quanto o desconhecido. Quando as pessoas não sabem nada além de que algo está quebrado, uma declaração vazia de que voltará em X horas é apenas tranquilizadora (ainda menos tranqüila depois que X horas se passaram e as coisas ainda estão quebradas). As pressões em jogo podem orientá-lo a fornecer estimativas de tempo excessivamente otimistas do WAG, mas esse é o caminho errado. Não basta dizer que você está trabalhando nisso, não apenas dizer que as coisas serão corrigidas por X tempo. Seja aberto, mostre seu processo, detalhe seu progresso e seus contratempos. Forneça informações sobre o problema, seu processo de rastreamento e seu plano para consertar as coisas (embora não afogue as pessoas em minúcias). Mostre que o problema não é intratável, mostre que as coisas serão acertadas eventualmente, mostre que existem pessoas competentes no problema, essas coisas são mais tranquilizadoras do que as promessas de cronograma infundadas.

59
Wedge

Não entre em pânico.

24
Jauder Ho

Etapa 0. Verifique se não é o seu sistema de monitoramento que está com falha

22
Dave Cheney

efetue login no serverfault

12
Phil Nash

Reservar imediatamente um voo para um país que não seja extraditado

11
Glenn Slaven

Verifique o básico primeiro, parece bobagem, mas coisas como

  1. A energia está ligada nas instalações do servidor? (se você hospeda fora do local)
  2. O seu provedor de hospedagem está inoperante?

Sei que muito tempo pode ser desperdiçado procurando uma solução quando o problema está ocorrendo

8
Glenn Slaven

Desculpe, mas esta pergunta já está perfeitamente respondida em Favorito sysadmin cartoon :

Disaster recovery plan of Dilbert

6
Rene Saarsoo

Eu sigo coisas. O que acontece depois disso varia muito, dependendo dos resultados do ping.

6
Dylan Beattie

Culpe a rede.

(é uma piada!)

4
Guy

RTFLF - Leia o arquivo de log do Frakkin '

(Não posso me responsabilizar por isso, tudo vai para Scott Hanselman )

3
Dillie-O

Não tente consertar nada ainda.

Certifique-se de saber exatamente qual é o problema real subjacente. Agora começando a consertar as coisas. Se houver várias coisas a serem corrigidas, considere cuidadosamente quais podem ser atrasadas (pelo menos até o próximo dia útil!) E quais absolutamente devem ser corrigidas agora.

Mas o mais importante: depois que tudo está funcionando, pergunte por que "tudo explodiu"? O que você fará para impedir que isso aconteça novamente? Existem etapas que facilitariam a solução se acontecesse acontecesse novamente?

2
Stewart

Informe as pessoas que você está envolvido e, se possível, faça uma estimativa de quando as coisas voltarão ao normal.

Quanto à solução de problemas real, obviamente depende do que está errado. Eu costumo manter uma coleção de scripts de "status de verificação" para vários serviços.

1
Brian Rasmussen

Verifique o cabeamento! Perdi horas verificando outras coisas quando uma simples troca de cabo Eth0 resolveu o problema ...

1
Adriano Varoli Piazza

Gosto desta lista de solução de problemas o aplicativo simples de solução de problemas agora corrige tudo =)

0
Artur Carvalho

É difícil da declaração fornecer um conjunto específico de ações. Seu primeiro passo será baseado em:

  • Onde você está
  • Quanta informação você consegue extrair da pessoa que entrou em contato com você
  • Quais ferramentas imediatas você tem em mãos para solucionar problemas (ou buscar informações)
  • Seu conhecimento sobre os caminhos físicos e lógicos para sua rede
  • Quanta ajuda você tem (parte de uma equipe? Ou ninja solitário?)

Obviamente, você precisa manter a calma e alerta sobre o problema em questão. Sua experiência com a solução de problemas de rede ensinou que isso poderia muito bem ser algo trivial, como:

  • Um cabo desconectado
  • Uma manutenção não anunciada (outra tecnologia 'consertando' as coisas)
  • O seu CEO reagiu exageradamente sobre a empresa estar completamente condenada após a perda da conectividade sem fio do laptop devido a ele/a microondas uma pizza de queijo.

Dito isto, também poderia ser algo sério nas categorias de:

  • Transporte físico (conectividade)
  • Hardware (roteador\switch\servidor)
  • Armazenamento (inacessível\comprometido\excluído)
  • Software (Serviço> Configurado incorretamente\Ataque\offline)

O componente principal é o quanto você sabe sobre o problema. Qual é o seu ponto de referência? (de que perspectiva é 'o sistema inativo')?.

0
l0c0b0x

Você deve ter planos de contingência.

Os sistemas essenciais devem ser projetados com failover automático ou um plano de recuperação documentado e testado.

Quanto mais importante o sistema, mais resistência você precisa construir e mais automático ele deve ser.

Se você não tem um, então não era importante, era!

0
Guy

Comece simples e trabalhe em direção ao absurdo.

Poder?

Ethernet?

Programa em execução?

...

Aliens?

0
Robert

Verifique o DNS.

0
Cawflands

Verifique se o backup do seu currículo está seguro :) Em seguida,

Encontre os pontos em comum. O que é comum a todos os sistemas afetados.

Encontre o que mudou. Você deve ter algum gerenciamento formal de mudanças em sua organização.

Onde está o novo cara ... onde está o chefe ...? Um deles tomou um atalho? (é apenas uma reinicialização rápida do servidor, o que poderia prejudicar)

0
BIBD