it-swarm-pt.tech

Melhor acidente com o administrador do sistema

Estou procurando histórias divertidas de acidentes com administradores de sistemas que você já teve. Excluir o email do CEO, formatar o disco rígido errado etc.

Vou adicionar minha própria história como resposta.

87
Alan H

Diverti-me descobrindo a diferença entre o comando "killall" do linux (mata todos os processos correspondentes ao nome especificado, útil para interromper zumbis) e o comando "killall" do solaris (mata todos os processos e interrompe o sistema, útil para interromper o servidor de produção em no meio do horário de pico e fazendo com que todos os seus colegas de trabalho riam de você por uma semana).

133
Tim Howland

Eu era responsável pelo nosso proxy corporativo da Web, que na época era o produto da Netscape. Enquanto brincava nos formulários de administração (era uma interface baseada na Web), havia um botão grande (e eu juro que era vermelho) que dizia Excluir banco de dados do usuário. Não tem problema, pensei. Vamos ver quais são as opções que me oferecem quando eu acerto isso. Certamente haverá um prompt de confirmação se não houver opções.

Sim, sem confirmação. Sem opções. Não há mais usuários.

Então, fui até o Sr. Solaris Sysadmin e disse que eu estava precisando desesperadamente de uma restauração da fita na qual ele respondeu: "Eu não apoio essa caixa".

"Uh, venha novamente", eu respondi.

"Eu não apóio essa caixa. Está na minha lista de coisas para adicionar à rotação de backup, mas ainda não cheguei a isso".

"Este servidor está em produção há quase 8 meses!" Eu gritei.

encolher os ombros , ele respondeu. "Desculpa."

73
squillman

Há muitos anos, a empresa em que trabalhei tinha um cliente que executava um backup noturno do NT 4.0 Server em um nidade Jaz (como um disco Zip de alta capacidade).

Configuramos um arquivo em lotes, que foi executado como um trabalho agendado da noite para o dia. Todas as manhãs, eles coletavam o disco da noite anterior na unidade e, antes de partirem, inseriam o próximo disco na sequência.

De qualquer forma, o arquivo em lotes tinha a seguinte aparência (a unidade Jaz era a unidade F :).

@echo off
F:
deltree /y *.*
xcopy <important files> F:

De qualquer forma, uma noite eles esqueceram de colocar o disco. A alteração na unidade F: falhou (nenhum disco na unidade) e o arquivo em lotes continuou em execução. O diretório de trabalho padrão para o arquivo em lotes? C :. Primeira vez que vi uma rotina de backup destruir o servidor que estava fazendo backup.

Aprendi um pouco sobre administração de sistemas (e manipulação de exceções) naquele dia.

Jim.

PS: A correção? "deltree/y F:\*. *".

66
Jim OHalloran

root @ dbhost # find/-name core -exec rm -f {} \;

Eu: "Você não pode entrar? OK. Qual é o nome do banco de dados?"

Cu: "Núcleo".

Eu: "Oh".

61
Dave

Eu amo o jeito que todos qualificam sua história com "quando eu era jovem/verde", como se nunca mais fizessem isso de novo. Acidentes podem acontecer até para os profissionais mais experientes.

Meu pior momento é tão ruim que ainda tenho palpitações pensando nisso ...

Tivemos um SAN com dados de produção. Crítico para a empresa. Meu "mentor" decidiu estender uma partição para liberar espaço em disco. Você consegue ver para onde isso está indo? que o software SAN poderia fazer isso ao vivo, em horas de produção e ninguém notaria. Os alarmes deveriam ter começado a tocar, mas estavam visivelmente silenciosos. Ele disse que havia feito isso "muitas vezes antes "sem problemas. Mas aqui está a coisa - ele me fez clicar no botão que dizia" você tem certeza? "! Como eu era novo na empresa, presumi que esse cara sabia do que estava falando. Grande erro. a boa notícia foi que o LUN foi estendido.As más notícias foram ... bem, eu sabia que havia más notícias quando comecei a ver erros de gravação de disco na caixa do Windows.

Estou feliz por estar usando calça marrom.

Tivemos que explicar por que 1 TB de dados desapareceu na hora do almoço. Foi um dia muito, muito ruim.

Na verdade, é um bom princípio - antes que você faça alguma dúvida, imagine ter que explicar à gerência se algo der errado. Se você não consegue encontrar uma boa resposta para explicar suas ações, não faça isso.

60
PowerApp101

O Nagios nos enviou um ping uma manhã quando o horário comercial começou a dizer que não era possível conectar-se a um servidor não crítico. Ok, caminhe para a sala do servidor. É um servidor antigo, um Dell 1650 adquirido em 2002, e sabíamos que os anos 1650 estavam tendo problemas de hardware. O PFY aperta o botão liga/desliga. Nada. Aperte-o novamente e mantenha-o pressionado por cinco segundos para 'ligar' ... o que substitui a proteção contra erros do BMC, pois sem um DRAC não há como examinar os logs do BMC sem ligar o chassi.

A máquina inicia o POST e depois morre novamente. Estou de pé sobre ele e digo: "Sinto cheiro de fumaça". Nós puxamos o servidor para fora do Rails e uma das fontes de alimentação fica quente, então o PFY o puxa e está prestes a fechar a caixa novamente. Eu digo: "Não, isso não é fumaça da fonte de alimentação, é fumaça da placa-mãe".

Abrimos o estojo novamente e procuramos a fonte do cheiro de queimado. Acontece que uma bobina de indutor e um capacitor explodiram algo no regulador de tensão da placa-mãe e pulverizaram cobre fundido e capacitor em tudo, causando um curto-circuito e fazendo uma grande bagunça.

A pior parte para mim foi reconhecer que havia fumado hardware suficiente para reconhecer a diferença entre o cheiro de uma placa-mãe queimada e de uma fonte de alimentação queimada.

54
Karl Katzke

Há três dias (sério), eu estava conectado remotamente a um servidor escolar, instalando o Service Pack 2 em um servidor de arquivos do Windows Server 2008.

Decidi agendar a reinicialização necessária tarde da noite, quando os professores não estavam logados para terminar seus boletins de final de ano. Eu digitei algo como:

 às 23:59 "shutdown -r -t 0" 

... o que pode ter funcionado bem.

Mas então eu me adivinhei. Minha sintaxe de 'desligamento' estava correta? Tentei ver a ajuda de uso digitando

 desligamento/h 

... e perdi instantaneamente minha conexão RDP. Em pânico, entrei no Google para obter a sintaxe. Uma pesquisa rápida revelou que a versão de desligamento do Server 2008 inclui uma opção/h, que (como você deve ter adivinhado) hiberna a máquina.

Os professores começaram a me ligar em questão de minutos para informar que não podiam mais abrir ou salvar os boletins em que estavam trabalhando. Como eu estava fora do local e a sala do servidor estava trancada, tive que ligar diretamente para o diretor da escola e orientá-la no processo de ligar novamente a máquina.

Hoje eu trouxe biscoitos caseiros para todos como uma forma de desculpas.

47
Brent D

Em um trabalho anterior, tínhamos um ótimo sistema interno que registrava e arquivava cada correio que entrava, saía ou ficava na empresa.

Explodiu toda a sua caixa de correio? Sem problemas! Procurando uma correspondência que alguém lhe enviou uma semana/mês/ano atrás, mas você não consegue lembrar quem a enviou ou qual era o assunto? Sem problemas! Apenas enviaremos tudo de fevereiro para você em uma pasta especial.

Em algum momento, surgiu a necessidade de o CEO da empresa monitorar as correspondências entre um concorrente e um vendedor interno sob suspeita. Por isso, configuramos um script que era executado todas as noites e entregamos correspondências relevantes do dia anterior ao CEO. Sem problemas!

Cerca de um mês depois, surgiu a notícia de um problema urgente com mais de duas vezes. Parece que, enquanto o CEO lia a lista de emails enviados para $ OTHERCOMPANY, ele se deparou com este:

To: [email protected]$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

Naturalmente, sendo o CEO uma pessoa importante e tudo mais, ele estava ocupado demais para clicar em todas as caixas de diálogo "Enviar recibo de leitura" no Outlook e configurou seu cliente para apenas enviar todos eles. Uma das mensagens capturadas pelo filtro de monitoramento tinha uma solicitação de confirmação de leitura definida. Adivinha o que o Outlook fez? Certamente atrapalhou o monitoramento 'clandestino'.

Nossa próxima tarefa: adicionar regras ao filtro de email para bloquear os recibos de leitura de saída do CEO para essa empresa. Sim, era a maneira mais fácil. :)

37
MikeyB

Ahhh, o meu foi há cerca de 10 anos atrás, quando eu ainda estava molhando os pés. Tive a alegria de instalar backups de bateria em todos os computadores dos programadores. Eles também queriam que o software fosse carregado para avisar sobre queda de energia e desligado corretamente.

Então, configurei-o no meu computador para testar tudo primeiro, é claro, e garantir que tudo funcionasse. Portanto, desconecto o cabo de alimentação e a mensagem aparece na minha tela. "energia externa perdida, iniciando o desligamento do sistema".

Então pensei: Ei legal, funcionou. Mas, por algum motivo estranho, eu nem me lembro, ele enviou essa mensagem como uma mensagem de rede para que todos os mais de 200 computadores da empresa recebessem essa mensagem, onde mais de 100 usuários estavam programados.

Sim, fale sobre surtos em massa !!

Eu mantive minha cabeça baixa naquele lugar por um tempo!

36
jherlitz

Costumava usar o comando "sys-unconfig" nas máquinas Solaris para redefinir o serviço de nome da máquina, I.P. endereço e senha raiz. Eu estava no sistema de um usuário e entrei no servidor de instalação do prédio e procurei algo (como root), esquecendo que havia feito login em outra máquina (prompt "#" não descritivo). Executei o comando "sys-unconfig".

# sys-unconfig     
        WARNING

This program will unconfigure your system.  It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.

This program will also halt the system.

Do you want to continue (y/n) ? y

Connection closed

#

Essa mensagem de "conexão fechada" se transformou lentamente em pânico ... em qual máquina eu estava conectado ao executar esse comando.

A pior parte disso não foi o momento difícil que meus colegas de trabalho me deram, foi o fato de eu fazer a mesma coisa um mês depois.

35
Alan H

Eu tenho uma muito boa. É certo que era antes do meu tempo como administrador de sistemas, mas ainda relacionado à tecnologia, então imaginei que o adicionaria.

Naquela época, eu trabalhava como técnico de banda larga/satélite para a USAF. Tendo me graduado recentemente na escola técnica, me vi na Coréia do Sul. Logo depois de chegar à estação, surgiu a oportunidade de viajar para o sul com os "grandões" que estavam lá por um tempo e realmente trabalhavam em alguns equipamentos do mundo real (ou seja, `produção ').

Fui com a equipe e, como um técnico jovem e ansioso, estava mastigando um pouco, bastante empolgado com a perspectiva de colocar minhas mãos em um equipamento real que passava pelo tráfego militar de voz e dados ao vivo.

Para começar devagar, eles me entregaram um manual, voltaram-se para a seção de manutenção preventiva e me apontaram na direção de quatro racks cheios de vários grandes multiplexadores digitais. O equipamento era fácil, havíamos coberto o mesmo equipamento na escola de tecnologia.

Primeira página do manual lida; "Aplique energia ao multiplexador digital. Coloque os dois interruptores traseiros na posição ON (ligado) e aguarde a inicialização do equipamento e inicie os testes". Eu olhei para cima e já havia energia APLICADA!

Eu estava em um dilema, com certeza. Sem saber como proceder, dei o meu melhor: "Ummmm ... meio que perdi aqui", olhei para o veterano.

Ele olhou para mim e riu: "Não, não, está tudo bem. Você pode ignorar essa parte da lista de verificação". Então, quando ele notou o olhar no meu rosto (desde que fomos ensinados na escola a NUNCA, NUNCA ignorava qualquer parte de uma lista de verificação, e era certa a morte e a destruição se alguém o fazia), ele olhou seriamente para ele. cara e disse: "Ignore APENAS essa parte! Siga o resto, conforme a letra!"

Obedientemente, eu segui as instruções de várias etapas PM, felizes como um molusco e orgulhosas por estarem deixando uma tecnologia tão baixa (embora inteligente)) fazer esse trabalho importante.

Em algum lugar entre a quinta e a sexta lista de verificação de manutenção preventiva desses enormes multiplexadores, comecei a perceber um aumento no nível de atividade ao meu redor. Os telefones estavam tocando, as pessoas estavam se movendo rapidamente. Olhares interrogativos estavam sendo trocados.

Finalmente, um grupo de pessoas correu até mim, liderado por um dos técnicos mais antigos que me derrubou.

"Ei! Estamos vendo ENORME interrupções no tráfego de dados e isolamos/rastreamos o caminho de volta aos racks em que você está trabalhando! Você está vendo algum estranho .."

(Naquele momento, ele foi cortado por outro dos solucionadores de problemas que havia percorrido o caminho para o primeiro grupo de multiplexadores em que eu estava executando as MPs.)

"PORCAS SAGRADAS! ELES DESLIGARAM! ELE ESTÁ DESLIGANDO-OS !!!!"

Em pouco tempo, observei enquanto eles corriam apressadamente o primeiro passo do manual: "Coloque os dois interruptores traseiros na posição ON ..." Quando o técnico sênior terminou, ele se aproximou de mim e perguntou incrédulo o que eu estava pensando. desligando as peças críticas do equipamento.

Assustado, entreguei a ele a lista de verificação que eu estava seguindo, jurando que não havia me desviado. Que eu tinha seguido, "à letra", como ele havia instruído.

Depois de um tempo, ele riu e apontou onde estava o problema.

No manual, a etapa FINAL na lista de verificação de manutenção preventiva foi:

"Grave a leitura final da sonda, limpe o painel frontal, remova toda a poeira e partículas e coloque os dois interruptores traseiros na posição OFF".

:)

27
Greg Meehan

Eu estava recarregando um sistema para alguém e, durante o processo de backup manual, perguntei a ele a pergunta "Você tem outros programas que usa?" e "Existe mais alguma coisa importante que você faz no computador?"

Ele disse "não" VÁRIAS vezes.

Fiquei convencido e formatou a unidade.

Cerca de 30 minutos depois, ele disse "oh meu deus" e colocou as duas mãos na cabeça.

Acontece que ele estava trabalhando em um roteiro de livro por mais de 10 anos em um programa especializado. Isso foi quando os programas usados ​​para salvar dados do usuário em seu diretório de arquivos de programa e eu os perdi.

Whhhhooooops.

Ele não estava bravo comigo, mas era um sentimento sóbrio.

26
MathewC

É um tipo de acidente com administradores de sistemas. Na medida em que os administradores de sistemas ocasionalmente precisam transportar fisicamente um grande número de máquinas do ponto A ao ponto B (onde A e B aparentemente sempre estão separados por vários lances de escada em um prédio sem elevador). Na n-ésima viagem do dia, parei para descansar três lances acima do nível de carregamento do porão para conversar com alguém descendo, apoiando a torre de tamanho normal com a estação que eu estava arrastando no corrimão interno da escada aberta e ... bem, você adivinhou ... perdi um pouco o controle. Mergulhou direto no poço e, quando chegou ao fundo, er ... não tanto com a funcionalidade desse! Total de peças recuperáveis: duas unidades de RAM, uma unidade de disquete e uma placa ISDN (Deus abençoe o pessoal da engenharia da Hermstedt!). Todo o resto rachado, chocalhando ou esmagado em pedaços minúsculos.

Pela graça de Deus, ninguém estava andando por baixo, o que, felizmente para mim, foi o primeiro do meu chefe, então eu tenho que manter meu emprego. Senti-me muito doente por mais ou menos uma hora.

Moral: a gravidade sempre vence!

26
avstrallen

Meu favorito pessoal não é realmente meu, e estou MUITO feliz com isso. Dê uma olhada aqui.

23
RainyRat

Isso não aconteceu comigo, mas ...

Eu estava trabalhando em uma empresa que fabricava softwares executados em máquinas Linux fornecidas pelo cliente. Essencialmente, nós "assumimos o controle" das máquinas, as configuramos completamente de acordo com as nossas especificações e fazemos todo o gerenciamento e monitoramento. Essencialmente, éramos uma equipe de 10 a 15 administradores de sistema, gerenciando milhares de servidores para centenas de clientes. Erros estavam prestes a acontecer.

Um de nossa equipe encontrou alguns problemas em um servidor (um backup, acredito) e decidiu que ele deveria executar o fsck nele. Ele interrompeu todos os serviços relevantes, certificou-se de que o sistema recebera backups recentemente e executou o fsck, mas queixou-se de que o sistema de arquivos estava montado. Como éramos remotos e não tínhamos acesso remoto (DRAC, OIT etc.), ele não podia fazer o fsck, mas tinha certeza de que era seguro fazê-lo com o sistema de arquivos montado, se você fosse cuidadoso.

Ele decidiu tentar sozinho executando fsck em sua partição raiz, com resultados previsíveis - ele corrompeu sua partição raiz e não pôde mais inicializar.

Confuso, ele foi falar com o líder da nossa equipe. O líder disse que tinha certeza de que você não poderia fazer isso, e o membro da equipe disse 'Claro que você pode!', Pegou o teclado do líder e mostrou a ele que você podia - executando fsck na partição raiz do líder. Que corrompia completamente a partição raiz do HIS.

Resultado final? Nenhum dado do cliente foi perdido, graças ao teste do membro da equipe. Dois dias de produtividade dos funcionários foram perdidos, mas isso valeu muito, muito menos que os dados na máquina do cliente. E para o registro? Você pode executar o fsck em uma unidade montada, mas apenas para verificar os dados. Não para repará-lo. Esse foi o erro do membro da equipe.

-

Para adicionar minha própria história, eu trabalhava na mesma empresa e tentava redefinir uma senha de usuário. Nosso sistema se recusou a permitir que eu a definisse com a senha que ele precisava, porque rastreava hashes de senha antigos e se recusava a permitir que você duplicasse a senha. O mecanismo era simples: validava sua senha contra o hash mais recente no banco de dados.

(E, para o registro, ela precisava ser a senha antiga porque era uma conta compartilhada e garantir que todos soubessem que a nova senha era impraticável)

Decidi simplesmente entrar no banco de dados dos usuários e excluir os novos registros para que usassem o antigo. É tudo apenas SQL (executando uma versão antiga do Sybase), por isso é fácil. Primeiro, eu tive que encontrar os registros:

SELECT * FROM users_passwords WHERE username='someuser';

Encontrei o antigo recorde que ele queria manter; havia mais dois na frente dele. Eu decidi ser inteligente e apenas excluir algo mais novo do que o registro antigo. Observando o conjunto de resultados, vi que a senha antiga era o ID # 28 no banco de dados e as novas eram o ID # vários milhares (sistema muito ocupado). Isso é simples, todas as linhas antigas tinham> 28, então:

DELETE FROM users_passwords WHERE id > 28;

Não há nada pior do que fazer uma simples remoção de linha e ver '212.500 linhas afetadas'. Felizmente, tínhamos dois servidores de banco de dados mestre (com o ID do usuário), mas a Sybase (pelo menos, nossa versão) não suportava a replicação automática, portanto não eliminava automaticamente os registros antigos. Era uma questão trivial obter um despejo da tabela users_passwords e reimportá-lo. Ainda assim, um grande 'oh f ** k!' momento.

23
Dan Udey

Digitado kill 1 como raiz. init e todos os seus filhos morreram. E todos os filhos deles. etc, etc. Opa.

O que eu pretendia digitar era kill %1

Depois que percebi o que fiz, corri para o painel de controle de uma GRANDE máquina de classificação de fardos de lã e apertei o botão de parada de emergência. Isso fez com que a máquina se rasgasse em pedaços, pois acabei de matar o software que a controlava.

22
Jason Tan

Instrução DELETE sem uma cláusula WHERE, no banco de dados de usuários ativos dos clientes.

22
Ian Boyd

Outro dos meus favoritos:

Ao configurar um computador e uma impressora a laser local em um sistema, tive a brilhante idéia de conectá-los ao no-break do computador. Você já tentou imprimir em uma impressora a laser local quando está conectada a um no-break de mesa? Bem, se você não sabe, tende a puxar todos os amplificadores ... O que reinicia o computador ... E o trabalho de impressão nunca termina ...!

Já recebeu a ligação: 'Sempre que imprimo, reinicia o computador e não imprime !!!'?

Opa!

JFV

22
JFV

Estávamos no meio de uma queda de energia e vimos que o no-break estava funcionando com 112% da carga configurada. Isso não era um problema, pois estávamos funcionando no gerador na época.

Então, saímos puxando cabos de energia de backup para reduzir o uso de energia naquele no-break (tínhamos dois, um muito maior que o outro). Chegamos ao comutador de rede que executava a sala do servidor (essa era a sala do servidor com todos os servidores internos da empresa, com o cliente enfrentando servidores em outra sala do servidor). O switch era um grande switch de classe empresarial com três fontes de alimentação. Como os suprimentos eram N + 1, precisávamos de apenas dois para executar o switch.

Pegamos um cabo e o puxamos para fora. Infelizmente para nós, os outros dois foram conectados a uma única régua de energia, que explodiu rapidamente quando a carga subiu nas duas fontes de alimentação que estavam conectadas a ela. O administrador de sistemas entrou em pânico e conectou o terceiro cabo. O switch tentou acionar, colocando toda a carga do switch na fonte de alimentação única. Em vez de a fonte de alimentação ser desligada, ela explodiu em uma chuva de faíscas a menos de 30 cm do meu rosto, fazendo-me voltar para o rack de servidores.

Por instinto, tentei pular para o lado, mas, infelizmente, à minha esquerda havia uma parede e duas à minha direita era um cara muito grande de 6'4 ". De alguma maneira, consegui pular sobre ele, ou possivelmente através dele ricocheteando dos racks Compaq (aqueles com as frentes de malha fina) sem colocar um todo no rack e sem tocar no cara das instalações.

21
mrdenny

Em algum momento da minha carreira, uma investigação legal na empresa em que eu estava trabalhando exigia que todos os emails fossem mantidos "deste dia" em diante, até que seja informado o contrário. Após cerca de um ano armazenando backups completos diários de nosso ambiente de troca (1 TB por noite), começamos a ficar sem espaço.

Os administradores da troca sugeriram que mantivéssemos apenas cada oitava cópia do e-mail. Para fazer isso, pedimos que restaurassem um dia dos bancos de dados do Exchange, extraíssem o email necessário (pessoas específicas sinalizadas para investigação) e o arquivassem novamente. Eles faziam isso a cada 8 dias de email para todos os nossos backups. O oitavo dia foi escolhido porque a troca tinha um conjunto de parâmetros em que "itens excluídos" são mantidos no banco de dados por 8 dias.

Depois que eles terminavam cada arquivo, eu voltava e excluía os backups mais antigos do que eles haviam arquivado.

O TSM não tem uma maneira fácil de fazer isso; portanto, você deve excluir manualmente os objetos do banco de dados de backup.

Escrevi um script que excluiria todos os backups anteriores a alguma data, por meio de um cálculo de data usando a diferença entre hoje e a data em questão. Em algum dia, tive que excluir cerca de um mês de backups, exceto quando fiz o cálculo da data, digitei um erro de digitação e digitei a data como 10/07/2007 em vez de 10/10/2007 e executei o script. Eu apaguei um mês extra inteiro de dados, acidentalmente que fazia parte de um processo muito importante.

Depois disso, adicionei algumas etapas ao script para confirmar que você deseja excluir os dados e mostrar o que ele iria excluir ...

Felizmente, eles nunca usaram nenhum dos dados que trabalhamos tanto para preservar e ainda tenho meu trabalho.

20
WerkkreW

Após um longo dia ou desempenho, rastreando e ajustando um grande mainframe (você conhece as bestas que levam algumas horas antes de todos os sites de backup concordarem que ele é realmente inicializado novamente e totalmente sincronizado) Eu estiquei meus dedos, digitei desligamento satisfeito -p agora no meu laptop Prompt, fechei a tampa, puxei o cabo serial para fora do mainframe, com a antecipação de um bom copo de cerveja gelada.

De repente, ouço o som ensurdecedor da rotação do mainframe enquanto meu laptop ainda exibe o X.

Enquanto esperava a máquina ficar totalmente on-line novamente, decidi que tinha tempo para fazer com que minha ACPI funcionasse no meu laptop, para nunca ficar tentada a desligar meu laptop.

20
Martin P. Hellwig

Excluí a conta de alguém por engano, misturei os nomes com os que eu deveria excluir. Opps

A parte legal é que eles nunca souberam o que aconteceu. Recebi a ligação que eles não conseguiam acessar, o centavo caiu sobre a conta que eu excluí.

Enquanto estava no telefone com eles, recriei rapidamente a conta deles, reconectei a caixa de correio antiga (felizmente o Exchange não exclui as caixas de correio imediatamente) e apontei-a de volta para os arquivos de usuário antigos.

Então eu os culpei por esquecer a senha que eu havia redefinido para eles :)

16
SpaceManSpiff

Instalei acidentalmente um arquivo tar.gz na minha caixa do Gentoo Linux no lugar errado e deixou arquivos em todo o lugar. Deve ter sido por volta de 1999, 19 na época (obrigado pelos comentários abaixo)

Sendo o nerd que sou, decidi tentar me tirar do trabalho de passar manualmente por cada arquivo.

Então eu tentei:

tar --list evilevilpackage.tar.gz | xargs rm -rf

Não demorou muito tempo para notar que o tar também listava todos os diretórios que o programa estava usando, os incluídos eram ''/usr,/var,/etc '' e alguns outros que eu realmente não queria.

CTRL-C! CTRL-C! CTRL-C! Muito tarde! Tudo se foi, reinstale o tempo. Felizmente, a caixa não continha nada de importante.

16
Andrioid

Este acidente não aconteceu ... mas vale a pena mencionar:

Fui enviado para um data center muito usado para realizar testes de largura de banda em um novo circuito. Cheguei à sala demarcada/IDF, encontrei um local em um dos racks do meu roteador de teste, fiz minhas conexões e iniciei os testes. Infelizmente, falhei completamente em perceber que o roteador de borda em produção não estava exatamente exatamente no próximo rack (quase no mesmo nível), mas que também era da mesma marca e modelo do meu roteador de teste.

Quando o teste foi concluído, comecei a pressionar o botão liga/desliga na posição desligado (... imagine em câmera lenta ...) e, juro, quando estava aplicando pressão, percebi que o roteador era meu. desligar era o que estava em produção. Meu coração parou e eu quase ... bem, use sua imaginação.

Deixei o MDF) do centro de dados com uma aparência assustadora e pálida, mas ao mesmo tempo feliz por ainda ter um emprego!

16
l0c0b0x

Como parte pequena da minha vida anterior, administrei o servidor de arquivos da empresa, uma caixa de netware 4:11. NUNCA precisava de nenhuma entrada, mas, se precisasse, você abriu uma janela do console remoto.

Acostumado a usar o DOS o tempo todo, quando terminava, naturalmente digitava "Sair". Para o Netware, "exit" é o comando para desligar o sistema operacional. Felizmente, ele não permitirá que você desligue, a menos que você primeiro "desligue" o servidor. (Torne-o indisponível para a rede/clientes) Portanto, quando você digita "Exit" no console, ele diz: "Você deve primeiro digitar" Abaixo "antes que você possa sair"

Pergunte-me quantas vezes eu 1: digitei "exit" na sessão do console e 2: Obedientemente digitei "Down" e depois "Exit" para que eu pudesse "terminar o que estava tentando fazer"

E então o telefone começa a tocar ...

LOL

12
Bob

O último lugar em que trabalhei, meu colega de trabalho teve seus filhos com ele na sala do servidor (por quê? Não tenho idéia!).

Ele garantiu que eles estivessem longe dos servidores e explicou a seu filho de 5 anos que ele não deveria tocar em NENHUM dos servidores e ESPECIALMENTE em nenhum dos interruptores.

Na verdade, ele os tinha bem perto da porta ... (você pode ver para onde isso está indo ...?)

O garoto não tocou em nenhum dos botões de energia do servidor ... Não, isso seria muito fácil de explicar. Em vez disso, ele apertou o BOTÃO VERMELHO GRANDE que estava perto da porta ... O botão que desliga a energia da SALA DE SERVIDORES INTEIROS !!!

As linhas telefônicas começaram imediatamente a se perguntar por que o Exchange, os Servidores de Arquivos etc. não estavam disponíveis ... Imagine tentar explicar isso ao CEO!

-JFV

11
JFV

Outra história que não aconteceu (ufa):

Estávamos fazendo backups incrementais religiosamente todos os dias em uma unidade de fita.

Por acaso, escrevemos uma fita contendo dados para enviar a outra pessoa. Eles disseram 'não podemos ler sua fita'. De fato, nós também não. Ou qualquer fita de fato.

Compramos outra unidade de fita e prendemos a respiração até a instalar.

Moral da história. Sempre certifique-se de testar seus backups.

11
Matthew Farwell

Certa vez, tive uma briga com o software de monitoramento da APC UPS. Sendo uma empresa pequena, tínhamos algumas UPSs pequenas e vários servidores foram configurados para monitorá-las. A maioria dos servidores era Linux, mas alguns estavam executando o Windows e, portanto, eram os usados ​​porque o software APC é apenas para Windows.

No entanto, o software da APC na época era codificado para assumir que o no-break com o qual está falando também está ligando o PC que está sendo executado! Este não era o caso deste servidor, mas descobri que era tarde demais para pedir para ele parar. Infelizmente, o programador líder estava demonstrando o produto da empresa para um parceiro - era um aplicativo baseado na Web, rodando no mesmo servidor que eu não queria que o software da APC fosse desligado ...

10
staticsan

Eu trabalho para um provedor sem fio na América do Norte e fiz algum treinamento para uma pessoa do meu grupo executar ordens de serviço. Eu tinha ficado acordado nas primeiras duas noites (fazemos tudo durante a janela de manutenção), mas ele estava indo bem e disse que precisava aprender sozinho, então eu deixei e deixei meu celular e pager ligados. Eu entrei e verifiquei a configuração quando me levantei às 8 da manhã da manhã seguinte.

A mudança foi que estávamos adicionando um novo pool de endereços IP para BlackBerrys , o pool que estávamos adicionando era de cerca de 10000 endereços. Para fazer isso, adicionamos rotas no roteador que apontam para o endereço do processador em um blade que realiza todo o processamento de chamadas (essencialmente funciona como um proxy). Além disso, efetuamos login no processador e configuramos o conjunto de IPs e vinculamos o conjunto de IPs a ser usado por nossos usuários sem fio. No entanto, para o teste, normalmente configuramos isso em um processador (na verdade, inicializamos um telefone e testamos todos os recursos) e depois movemos a configuração para o processador real em que queremos.

Avanço rápido de duas semanas, e recebo uma ligação de nossa central de controle informando que existem muitos problemas intermitentes com o BlackBerry, e os poucos BlackBerrys que eles visualizaram parecem andar de bicicleta por um pool comum, mas não foram realmente certo do que estava acontecendo. Levei apenas cinco minutos para perceber que esse era o novo pool que meu colega acabara de adicionar duas semanas antes. Também não demorou muito para ver que o roteador tinha duas rotas, uma indo para o processador de teste e outra para o processador de chamadas apropriado. Sendo assim, ele esqueceu de excluir a rota para o processador de teste e substituiu a rota correta.

Essencialmente, um BlackBerry se conectaria à rede, se conectaria ao proxy para obter seu endereço IP, o proxy forneceria um endereço do pool com a rota incorreta e o BlackBerry tentaria conversar com o RIM retransmissão, e a resposta seria roteada para o proxy de teste e nunca retornaria ao usuário, significando essencialmente nenhuma conectividade.

Tivemos sorte, já que os BlackBerrys têm um comportamento de que, se não puderem entrar em contato com o relé, eles se desconectarão/se reconectarão à rede, mas, no entanto, alguns dispositivos RIM ficaram sem serviço por várias horas até poderem entrar em funcionamento. piscina. Pensei novamente e, quando verifiquei o trabalho duas vezes, havia verificado apenas a configuração de proxy que era nova para esse cara, nunca verifiquei a configuração de roteamento, pois esse cara estava anteriormente com a equipe de backbone e o roteamento era coisa dele. Opa!

Eu consertei e liguei para ele naquela tarde, o dia estava indo bem, mas comecei com desculpe, mas estou prestes a arruinar sua semana inteira. Um ano depois, a história ainda aparece em torno de cervejas.

8
Kevin Nisbet

Tropeçar em um servidor em torre preso atrás de um rack e bater na minha cabeça na parte de trás do roteador principal da Cisco no caminho. Revelando, assim, quão frouxamente os cabos de energia estavam realmente assentados nas fontes de alimentação na parte frontal do Catalyst 65 .

Sim. Agora temos um capacete de segurança na sala dos servidores. Com o meu nome nele.

8
Bill B

Eu estava dando um novo sysadmin um tour de um aplicativo Service Manager. Eu disse "se você precisar interromper esse serviço, clique nesse botão, mas nunca o fará durante o dia". Você nunca acreditaria em como o botão do mouse dela era sensível!

Dois minutos depois, o serviço havia reiniciado e ninguém parecia notar.

8
Antony

Minha tia me pediu para consertar o computador deles. Eles disseram que não iria inicializar e que tem sido assim por 2 semanas. Suspeitei que fosse o BIOS ou o SO.

Eu me sentei na frente do computador deles. Agachei-me para apertar o botão liga/desliga. Eu olho para cima.

O BIOS passou. Isso é bom.

O sistema operacional foi inicializado. Isso é bom.

Movi o mouse pensando que talvez haja um problema com os dispositivos de entrada. Não houve problema com os dispositivos de entrada.

Eu abri o processador dela. Correu.

Eu imprimo teste a impressora. É impresso.

A essa altura, levantei-me e disse à minha tia (que estava me observando) que não havia nada de errado com o computador. Ela alegou que não era assim antes de eu me sentar.

Agora posso afirmar à minha família que sou tão bom, que posso consertar qualquer computador apenas sentado em frente a ele.

7
MrValdez

Quando fui contratado como administrador do sistema pela primeira vez ... na primeira semana, recebemos um novo servidor Dell ... Windows Server 2003 ... era seu bebê pequeno até que fui secretamente chamado para a sala do servidor à meia-noite um sábado à noite para limpar várias instâncias de malware, porque ele estava surfando na Web antes de implantar SEM ANTIVIRUS !!!

A limpeza de malware é algo com o qual tenho muita experiência, mas como este era um servidor, fiz um formato e reinstalei para ser mais seguro.

Eu nunca disse uma palavra para ele sobre isso. Ele sabia que tinha estragado a realeza.

7
cop1152

Mais um script pessoal do que um administrador de sistemas, mas ...

Eu estava escrevendo um script Perl para agir como uma macro que recuperaria as informações que estavam sendo reproduzidas agora de Banshee e a inseriria caractere por caractere como eventos de teclado usando o programa "xte". Dessa forma, eu poderia fazê-lo funcionar em programas sem nenhuma interação especial, seria exatamente como eu o digitei.

Bem, eu codifiquei a coisa quase perfeitamente. Eu decidi testá-lo em algum jogo aleatório. O pressionamento de tecla para iniciar o bate-papo foi shift + enter. Agora, para fazer isso, eu precisava pressioná-lo shift, pressione entere solte shift. Infelizmente, na minha pressa, esqueci o "turno de liberação". Eu executei o script e isso levou ao efeito colateral um tanto hilário de minha tecla shift ser bloqueada. Pensei "não tem problema, vou apenas ao terminal e digitar manualmente a linha para liberar o turno". Infelizmente, como todos sabem, o Linux diferencia maiúsculas de minúsculas. Ele não aceitaria o comando em todas as letras maiúsculas, pois eu precisava inseri-lo. Eu não poderia "contrariar" ou algo assim.

Isso levou a uma caçada de cinco minutos ao visitar sites e usar o mouse para copiar + colar letras minúsculas individuais no terminal para formar o comando necessário para desligá-lo.

7
DWilliams

Não é um problema enorme, mas certamente uma manhã de 'Ovo na minha cara' há cerca de 10 anos. Eu estava examinando o antigo inventário de hardware e reinventando a imagem dos discos prontos para o descarregamento do hardware. Tentando encontrar a maneira mais eficiente possível de fazer isso, eu construí um CDRom com uma cópia do Norton Ghost e a imagem a ser aplicada. Você ligou a máquina e, enquanto estava no POST, colocou o CD na unidade. A máquina inicializava o CD e reiniciava a imagem automaticamente. Funcionou bem.

O problema surgiu quando eu estava fazendo cópias do CD para poder colocar mais máquinas em paralelo. Eu terminei de gravar o último CD, desliguei meu computador e fui para casa durante o dia. Bem, você pode adivinhar o que aconteceu na manhã seguinte. Entrei, liguei meu PC e fui fazer um café ...

Quando voltei, por algum motivo, minha máquina estava fora do domínio e não estava aceitando minha senha ...

Eu tinha acabado de descobrir o que havia acontecido e comecei a xingar quando os outros caras chegaram para o dia. Sim, eles não me deixaram viver por um tempo.

7
Sam

Naquela época, quando eu era muito verde, precisava instalar o software AV nos computadores dos meus usuários, como ninguém parecia ter. Por isso, passei algum tempo tentando descobrir como fazer uma instalação remota, em vez de vasculhar cerca de 40 ou 50 desktops. A instalação remota funcionou perfeitamente e tudo parecia bem, até vários gerentes aparecerem no meu escritório para reclamar que não podiam fazer login.

Descobriu-se que algumas pessoas tinham o Symantec AV instalado em suas máquinas, e isso não coexistia muito bem com o software McAfee que eu estava usando e trava as máquinas após uma tentativa de login.

Felizmente, era possível desativar remotamente o serviço se você chegasse à máquina antes de tentarem fazer o login, então consegui obter pontos para corrigi-la, em vez de ter que reconstruir todos os PCs da gerência sênior ...

7
user2278
6
Rook

Feito por um dos meus funcionários ... Exemplo perfeito de por que você rotula claramente seus servidores:

Enviei meu funcionário ao colo para reconstruir o servidor de banco de dados MSSQL secundário (que não tinha dados atuais). O principal estava ativamente em uso. Você provavelmente pode prever o restante desta história ... Uma vez lá, ele reiniciou o servidor, iniciou a instalação e reformatou as unidades, apenas para que eu ligue para ele e pergunte por que o servidor de banco de dados primário não estava mais respondendo. (doh)

6
skraggy

A minha aconteceu há apenas 6 meses. Acabamos de mudar para um novo servidor para um aplicativo da web PHP/MySQL. Desde que escolhi o sistema operacional, escolhi aquele com o qual estou mais familiarizado/confortável: o Ubuntu.

Tínhamos vários scripts de backup que seriam executados por cron a cada hora, diariamente, etc. A transição foi perfeita. Houve apenas 2 minutos de tempo de inatividade enquanto eu transferia o banco de dados MySQL do servidor antigo para o novo e alternava IPs.

Algumas semanas depois, no entanto, eu estava trabalhando no MySQL na linha de comando e estava excluindo alguns registros de teste antigos que não eram mais necessários. Como sou programador primeiro, sysadmin segundo, adquiri o hábito de digitar meu ponto e vírgula (;) primeiro e depois digitar o comando. Bem, quando eu estava prestes a adicionar a cláusula WHERE à minha consulta DELETE, pressionei acidentalmente a tecla Enter. ... opa.

Query OK, 649 rows affected (0.00 sec)

"Não é grande coisa", pensei. "O backup por hora acabou de terminar há 4 minutos. Pode haver três registros perdidos ao todo. Fui rapidamente ao diretório de backup e restaurei. Problema resolvido.

... Então notei o carimbo de data/hora no backup. Tinha 17 dias. Não havia outros backups. Acabei de apagar tudo o que havia sido inserido no sistema menos de 17 dias antes.

Acontece que há um bug no daemon cron do Ubuntu que faz com que ele não execute um arquivo de script com um ponto (.) Em qualquer lugar do nome. Como não gera um erro, não há evidências de um problema. Apenas se recusa a executá-lo. Todos os nossos scripts de backup tinham pontos em seus nomes. Eles funcionaram perfeitamente antes, mas não agora.

Lições que aprendi:

  1. Não coloque o ponto e vírgula na linha de comando do MySQL até que você realmente queira executar a consulta.
  2. Verifique o registro de data e hora em seus arquivos de backup antes de restaurá-los.
  3. Teste seus scripts de backup e verifique se eles realmente funcionam .
6
Andrew Ensley

Há mais tempo do que gostaria de pensar, eu era a pessoa técnica da empresa e trabalhei com alguns consultores instalando seu aplicativo. O hardware era um DEC VAX e usava um servidor de armazenamento HSC50. Os consultores passaram a maior parte do dia com a instalação e, depois que saíram, decidi fazer o backup do disco do sistema em um disco vazio usando o utilitário de cópia bit a bit do HSC50. Depois que a cópia foi feita e tentei reiniciar, descobri que havia revertido os nomes do disco de origem e de destino e, portanto, havia feito o backup do disco em branco, pouco a pouco, no disco do sistema.

Consegui reconstruir o VMS no disco do sistema e reinstalar grande parte do aplicativo, mas acho que nunca funcionou tão bem. Desde então, se eu estivesse fazendo uma cópia/backup/etc., Protegeria contra gravação o disco de origem antes de continuar. (Agora que as opções de proteção contra gravação não existem mais, olho para o comando antes Apertei Return.)

6
JonP

Fui chamado para investigar um alerta vindo de uma máquina Windows que indicava que o sistema de monitoramento não tinha um arquivo de licença. Abri o prompt de comando e comecei a investigar o problema e descobri que os comandos básicos do Windows nem estavam lá.

Um administrador de sistema que executou um script remotamente escreveu um script que usava o comando del para excluir uma pasta especificada por uma raiz e subpasta com as pastas especificadas em Variáveis ​​de ambiente. Se as variáveis ​​de ambiente não foram definidas, excluíram silenciosamente toda a partição.

Quando informados, o administrador do sistema ficou tão surpreso que confirmou a ação executando o referido script em seu próprio notebook, destruindo-o também.

O incrível foi que o Windows estava funcionando bem, até reiniciarmos o servidor. Somente o mesquinho software de monitoramento reclamou.

Era o servidor secundário do Active Directory de um partido político. Opa.

5
Stuart Woodward

Adicionando uma regra de desvio a um firewall para acelerar alguns downloads do BitTorrent. Acontece que o sistema usado pela regra de desvio não era muito estável e derrubou o firewall. Este era um firewall de fronteira para a conexão de Internet de todas as escolas da cidade. Para piorar a situação, a reinicialização foi apenas o suficiente para causar a morte do disco rígido do firewall. Divertido? Não muito. Falha espetacular? Definitivamente.

4
Mark

O meu foi um esforço de tag team.

Fui instruído pela gerência a registrar um de nossos DBAs em um servidor para que ele pudesse fazer algum tipo de limpeza. Ele executou sua consulta e imediatamente nossos pagers dispararam, o que provocou palavrões de nós dois.

Acontece que a limpeza era na verdade uma gota do banco de dados e deveria ser feita em um dos servidores de desenvolvimento. No entanto, as instruções que recebi me levaram a acreditar que essa era uma tarefa de limpeza secundária que deveria ocorrer na produção.

Felizmente, conseguimos restaurar do backup com perda mínima de dados.

Lição aprendida: verifique SEMPRE EXATAMENTE o que você deveria fazer ao mexer com os servidores de produção. Se houver incerteza, é melhor você obter clarificação.

4
Bill B

Está bem. Para obter & em um teclado americano, pressione Shift-7. Para obtê-lo em um teclado sueco, pressione Shift-6. Então, o que você ganha quando pressiona Shift-7 em um teclado sueco? Você recebe /.

Anos atrás, os layouts suecos não eram tão comuns. Minha preferência pessoal era usar o layout dos EUA. Um dia eu queria excluir um monte de arquivos e subdiretórios em um diretório.

Eu bati:

rm -fr *

Mas era muito lento, então eu rapidamente apertei:

Ctrl-C rm -fr * &

Ou eu fiz? Bem, eu não fiz. Levei alguns segundos para perceber que eu estava em um teclado sueco. Veja acima para decodificar o que aconteceu. E esse desastre foi um fato.

Esse foi o dia em que aprendi o comando:

dd

Eu consegui, basicamente, finalmente do disco para a fita, só que demorou a noite toda. No dia seguinte, soube que o sistema estava prestes a ser reinstalado de qualquer maneira.

Tive sorte, mas aprendi algumas coisas.

4
fredarin

Quando a maior parte da frota de servidores ainda era o Windows NT, o principal método remoto em uso era o pcAnywhere. Tivemos um erro "conhecido", que às vezes os servidores eram reiniciados repentinamente ao usar o pcAnywhere, e os usuários finais eram informados sobre esse erro conhecido.

O problema era que o pcAnywhere (pelo menos a versão que estávamos usando) tinha um botão "reiniciar o host" ao lado do botão "desconectar do host". Então, de vez em quando ...: D

4
marty

VNC'd em um servidor Win 2k 200 milhas de distância, foi adicionar um endereço IP, então ... clique com o botão direito do mouse no ícone de rede na bandeja do sistema, clique em 'Desativar' e não em 'Propriedades' - DOH! .... Solução .... Entre no carro. Infeliz! Se eles tivessem um 'você tem certeza' nessa opção de menu!

Mike

4
Mike McClelland

Verão de 2002.

Eu implantei inadvertidamente IE 6.0 com uma reinicialização forçada para 16.000 usuários no meio do dia).

Na verdade, eu peguei meu erro e digitei o mais rápido de todos os tempos desligamento odadmin tudo (Comando Tivoli para parar todos os servidores de implementação).

3
Shawn Anderson

No Linux e FreeBSD hostname -s exibirá o nome abreviado do host. Este é o nome do host cortado no primeiro ponto ".

No Solaris 9, hostname -s definirá o nome do host como '-s'.

Portanto, meu colega administrador executou um script para auditar todos os nossos 120 sistemas, incluindo 10 servidores de banco de dados Oracle de missão crítica em execução no Solaris 9.

for Host in `cat all-hosts`; do
ssh $Host "hostname -s"
done

Todos os nossos servidores Oracle falharam instantaneamente. A velocidade dessa falha foi realmente incrível. Demoramos cerca de 20 segundos para nos recuperarmos desse erro, mas já era tarde demais. Tudo estava em baixo.

A ironia é que nosso datacenter sofreu uma grande falha de energia apenas alguns dias antes, e estávamos atualizando nossa planilha "desligar/ligar" para garantir uma recuperação mais rápida para futuras falhas de energia.

3
Stefan Lasiewski

Não eu, mas alguém com quem trabalho. Eles criaram uma política no servidor AV que continha um * no campo do processo. Em termos leigos: não permita ler, escrever, executar em qualquer processo que contenha o nome *.

Essa política foi replicada para 1.500 servidores, que, por sua vez, desligaram o RDP e qualquer outro processo. Consertá-lo significava montar todos os discos rígidos do servidor, um por um, e remover a política. 48 horas com uma equipe de 15.

3
stuart Brand

Como sou programador, todos os meus erros pertencem ao Stack Overflow. No entanto, abaixo estão alguns dos erros de administrador do sistema que eu testemunhei.

  1. Revogar permissões de logon de todos os usuários em um domínio do Windows NT. (Além do administrador interno do PDC, infelizmente, apenas o contratado que configurou o domínio sabia a senha e eles já haviam desaparecido há muito tempo). Na verdade, não sei como isso foi alcançado. Eu sei que tenho que sentar e conversar com meus colegas desenvolvedores por algumas horas.

  2. Exclua acidentalmente os Servidores Membros OU . Foram mais algumas horas conversando enquanto uma restauração da fita era feita.

  3. Nosso administrador pretendia conceder permissão a todos os administradores de domínio para usar o acesso a CD e unidade de disquete. (Usamos o SecureNT para controlar o acesso à mídia removível na época.) Infelizmente, ele conseguiu a associação do grupo para trás e, em vez disso, concedeu a todos os usuários de mídia removível todos os direitos de administrador de domínio. Encontrei isso porque algumas tabelas apareceram em um banco de dados SQL de produção que havia sido criado por um usuário que não deveria. Quando eu disse ao administrador em questão, gostei de ver o rosto dele mudar de, não, esse é o caminho certo, até, ah, merda. Felizmente, não houve nenhum dano grave.

3
pipTheGeek

Ah, meu primeiro grande acidente foi quando eu estava escrevendo um pequeno painel de administração do SVN em nosso servidor de desenvolvimento, um software completamente inseguro que só deveria ser usado para atualizar o site interno de "Desenvolvimento".

Às vezes, o repositório SVN ficava corrompido, então eu escrevi um botão que chamaria um arquivo PHP, que limparia todo o diretório SVN solicitado e parecia algo como isto ..

<?php
$directory=$_GET['dir'];
$result = Shell_exec("Sudo rm -Rvf /".$direcory);
echo $result;
?>

Para aqueles que não o veem - o diretório "$" com erros de ortografia no Shell_exec, fazendo com que o sistema execute "Sudo rm -Rvf /" .... No começo, pensei que a página da web estava demorando para excluir todos os arquivos no repositório. Após cerca de 10 a 15 minutos, descobri que havia destruído mais da metade do sistema de arquivos.

Opa.

2
grufftech

Ex-história de empregador, isso é ótimo. Alguns dos detalhes foram alterados para proteger os inocentes. Eu tive um problema com o emprego, chame-o de Fred, que estava tendo muitos problemas de produtividade, mas parecia ter se redimido e conquistado alguns privilégios. O único problema foi que, quando seus privilégios foram restaurados, um bug em um script de provisionamento deu a ele alguns privilégios extras.

Eu estava no meio de um grande projeto, então pedi a Fred para empacotar um hotfix do Windows necessário para um aplicativo. (Isso foi nos dias pré-blaster, quando as pessoas não se remendam tão religiosamente quanto hoje). Então, Fred faz um teste em nosso laboratório e tudo funciona bem.

Fred então faz algumas perguntas:

"Who should I Push it to?" (Mind you, this is a patch for some custom VB app)

"Everyone", I respond

"Ok, what time should it start?"

"How about 2AM?", I answer. (Figuring I'd have time to look over everything before I left for the day!)

Então o que acontece depois? Ele configura um trabalho com o nosso aplicativo de distribuição de software para Push para todos, e é gentil o suficiente para marcar as caixas de todas as plataformas suportadas pelo produto. Em seguida, define o horário de início para as 02:00, como nas 02:00 que ocorreram cerca de 12 horas no passado.

O resultado? Tudo é reinicializado e tenta instalar algum patch de tempo de execução do VB5. Por volta das 2:45 PM em uma tarde de sexta-feira. Tudo.

Tudo? Como 40.000 PCs? Sim. 3.000 servidores Windows? Sim. 300 caixas HP, Sun e IBM Unix? Sim. Um cluster do AS/400? Sim.

A única coisa que não reiniciou foram os DCs do Windows, porque os caras do AD desabilitaram o nosso aplicativo por algum motivo. Santo pesadelo. Depois de uma semana limpando, eu não conseguia acreditar que ainda estava empregado.

O punchline? Fred conseguiu uma grande promoção em um emprego em que não podia mais machucar nada.

2
duffbeer703

Talvez um cérebro peido mais tarde da noite do que qualquer outra coisa.

Um dos desenvolvedores estava tendo problemas para executar um Java profiler em uma caixa Solaris. O criador de perfil estava reclamando que havia duas cópias do Libc; uma em /lib e um em /usr/lib. Então, depois de alguns lds, mudamos o de /lib como tudo estava apontando para /usr/lib, ou assim eles disseram.

Mas de repente nada funcionou. Sem ls, sem cd, sem cp ou mv. Após cerca de 20 minutos de 'oh merda, oh merda', descobrimos que um dos desenvolvedores tinha uma cópia do Emacs atualmente em execução nessa caixa e conseguimos abrir o backup /lib copie o Libc e escreva-o novamente com o nome original. E pronto! Tudo funcionou. Lição aprendida; deixe o Libc onde quer que esteja e não faça alterações nas solicitações do desenvolvedor às 2 da manhã!

2
beggs

Eu tive um não há muito tempo. Durante a implantação da ponte Oracle ODBC $, tive que modificar o caminho em cerca de 500 postagens de usuários).

É uma operação bastante simples, realmente. Pena que eu esqueci essas citações. As pessoas começaram a tocar depois de receberem algumas mensagens estranhas e ilegíveis (a instalação ODBC falhou)) e pareciam pensar que reiniciar a máquina seria exatamente o necessário.

Obviamente, alguma outra instalação anterior PREPENDED (!!!) o caminho de alguns arquivos de programa na variável do sistema (com espaços e tudo, sem aspas), então o novo caminho parou ali, em c:\Program (é claro, a existência de% ProgramFiles% permaneceu completamente ignorado). Nenhum sistema, nenhum system32, nenhum Shell. Portanto, nenhum script de logon também.

As pessoas que reiniciaram não tinham mais acesso à rede e nenhum script automatizado poderia reparar o dano. É claro que, assim que fui a algum usuário queixoso, olhei em volta e verifiquei o caminho, tive essa ... sensação de afundar.

Em cerca de 30 minutos, eu tinha outro script, com os valores de caminho mais padrão, pronto para ser enviado a todos (o email ainda funcionava). Os usuários até telefonaram para ter certeza de que o patch era real, pois não são usados ​​para enviar mensagens criptografadas por motivos estranhos para aplicá-los, e a maioria deles nem sabia o que estava acontecendo.

A primeira versão era bagunçada (um novo ponto-e-vírgula a cada execução), mas registrava todos os possíveis valores de caminho disponíveis, então eu rapidamente tive dados com caminhos possíveis, então tive que criar algo inteligente para verificar todos eles e finalizar o caminho no lugar.

No geral, durou apenas 45 minutos e, felizmente, fui eu quem colocou tudo de volta. Mas ainda assim, quando um caminho corrompido aparecer agora, ainda estou pronto para assumir a culpa;)

2
Berzemus

Meu melhor veio no momento em que nosso servidor de backup estava em um limbo administrativo - meu chefe estava "debatendo" se ele deveria ou não permanecer no escritório, fora do local da nossa sala de servidores (e não fazendo backups por algum motivo) ou se ele deve ser instalado na sala do servidor para economizar grandes quantidades de largura de banda. Lembro-me de que esse estado limbo existiu por vários meses.

Nosso servidor web possuía uma matriz RAID 5 para armazenamento de sites. Parece que ele estava sendo executado no modo degradado (sem me informar por motivos desconhecidos ou dos quais não me lembro) há algum tempo antes da falha da segunda das três unidades. Eu tenho que puxar uma noite toda colocando o servidor de volta. Nossos clientes não estavam satisfeitos com o desaparecimento de seus sites e precisavam restaurar a partir de seus próprios backups. Especialmente aqueles que não tinham seus próprios backups.

As perguntas que meu chefe me fez foram "Como um array RAID pode falhar assim? Eu pensei que não deveriam!" e "Por que não tivemos backups do nosso servidor da web?"

No entanto, a lição não foi ouvida. Meu chefe cooperou quando sugeri que as atualizações para o servidor de correio incluíssem uma matriz RAID 1 com um hot spare (em vez de discutir comigo sobre o custo extra, o que ele normalmente faria). E, é claro, o servidor de backup estava fazendo seu trabalho corretamente em pouco tempo.

2
Ernie

Que tal aprender a diferença entre o recurso "Remover caixa de correio" e "Desativar caixa de correio" do Exchange Server 2007? Especialmente quando estou removendo a caixa de correio antiga de todos para lidar com um banco de dados corrompido?

...

Restaurar em um servidor de troca ... não é divertido ... Ter que restaurar um servidor de troca E o Active Directory ... não é o dobro.

Fazê-lo às 11:00 da manhã de sexta-feira ... Inestimável.

2
IceMage

Eu estava tentando liberar espaço na partição principal do servidor da web RedHat 5 do site. Eu era relativamente novo no Linux, mas usava o DOS há anos.

Consegui mover a pasta/bin inteira para outra partição, retirando o site de produção e me deixando sem nenhum comando do sistema acessível. Eu enlouqueci, não consegui renomear, copiar, mover, qualquer coisa porque havia movido todos os executáveis ​​úteis.

Felizmente, consegui usar um disco de inicialização e desfazer minhas obras.

2
Darth Continent

Eu era novo no RAID 5 e ainda estava aprendendo sobre como funcionava. Na época, eu era o único funcionário de TI de uma empresa muito pequena. Todos os arquivos que todos acessaram foram armazenados em apenas um servidor. O servidor estava ficando com pouco espaço e tinha apenas 3 unidades na matriz RAID, então pensei que adicionar um quarto aumentaria o espaço e a capacidade de resposta. Eu fiz isso durante o horário comercial. Eu não tinha aprendido o conceito de manutenção fora do horário comercial.

A matriz começou a ser reconstruída e disse que isso seria feito em 36 horas. Eu pensei que era muito longo. Encontrei um controle deslizante que controlava a prioridade de reconstrução e foi definido como a configuração mais baixa. Eu ajustei para médio. O tempo foi reduzido para 8 horas. As luzes do disco rígido estavam piscando um pouco mais rápido, mas eu ainda achava que ainda era longo demais para apenas 80 GB de dados. Então eu defino a prioridade como alta. As luzes do disco rígido ficaram acesas e pensei: "é mais assim!" Em seguida, a GUI que eu estava usando parou de responder. É conectado à caixa remotamente. Tentei trazê-lo de volta, mas não foi possível encontrar o servidor.

Comecei a ouvir as pessoas no corredor reclamando que não podiam acessar o servidor. Fui ao servidor para efetuar login para ver o que estava acontecendo. Demorou 5 minutos para a tela em branco mudar para o fundo. Foram necessários mais 5 minutos para o prompt de login aparecer. Cada pressionamento de tecla levou 5 minutos para se registrar. Eu havia definido a prioridade tão alta que o servidor não respondeu a nada. Demorou 2 horas para a matriz ser reconstruída. Felizmente, foi uma hora antes do almoço, então ninguém realmente se importava tanto. Meu gerente na época era uma mulher muito legal e disse que não era grande coisa. O engenheiro chefe de design me deu uma aparência mesquinha. Eu suava balas por 2 horas. Lição aprendida.

2
Joseph

Um funcionário se queixou de que seu laptop estava lento, então verifiquei a fragmentação do disco rígido e foi (e é até hoje) o pior que eu já vi. As tentativas de desfragmentar a unidade foram infrutíferas porque não havia espaço livre suficiente. Tentei limpar arquivos temporários (não sei por que não transferi temporariamente as coisas para o servidor) e apaguei estupidamente todo o Outlook.pst, pensando que era um backup do email dele e não do email real. Ele me perdoou, mas nunca me deixou esquecer.

(Isso aconteceu há muitos anos, pouco depois de me formar na universidade. Sou muito mais competente agora.)

2
Scott

Erro muito estúpido. Eu estava escrevendo um script na minha estação de trabalho Linux que processava vários arquivos, mas não importava que tipo de arquivos, contanto que houvesse muitos arquivos. Então eu decidi que era uma boa ideia copiar /etc para um diretório em que eu estava realizando meus testes. Quando as coisas deram errado, excluí a cópia e copiei /etc para o meu diretório de teste novamente. Isso correu bem, por algum tempo, e então eu digitei

rm -rf /etc 

ao invés de

rm -rf etc/  

OK, nada para se preocupar, eu ainda podia fazer coisas na minha estação de trabalho e pensei em revivê-la copiando-a de outra estação de trabalho, ou algo assim. Ou reinstale no final do dia. Primeiro, pegue algo para beber e, por causa da política corporativa, tranquei minha tela. Porra, preciso da minha senha para desbloquear e isso está em/etc/.....

Erros estúpidos:

  • fazendo muita raiz (eu tinha uma boa razão para isso O :)).
  • digitando /etc ao invés de etc/
  • usando /etc para fins de teste
2
blauwblaatje

Houve um tempo em que excluí acidentalmente o usuário "bin" em uma caixa Unix. Obviamente, excluir um usuário também faz com que seu diretório pessoal seja removido.

Você consegue adivinhar o diretório inicial do bin?

/ bin

1
Barry Brown

Algumas empresas atrás, tínhamos uma caixa do Windows NT 4 como servidor principal executando tudo, como backup, ele tinha um disco rígido espelhado.

Apaguei acidentalmente alguns arquivos importantes, não há problema, basta reiniciar a caixa, selecione o disco 2 no menu SCSI e voltaremos a executar a cópia em menos de um minuto.

Então iniciei o comando para reconstruir a unidade de espelho. Acontece que, embora o Windows agora tivesse novas unidades C: e D: o software inteligente de espelhamento não seria enganado por isso. Ele usou os números de identificação SCSI para a origem e o destino e copiou com facilidade 1-> 2.

Obrigado Adaptec!

1
Martin Beckett

No final da semana, todo mundo quase fora do prédio, vou para a sala do servidor para carregar novas fitas no trocador automático, para o backup completo de um fim de semana inteiro. O AC está muito frio, eu acho, e desligue-o (a sala do servidor era apenas uma sala com um AC montado na parede - sem fundos para nada sério). Então, eu carrego as fitas, verifique se a TBU lê os códigos de barras OK e saia.

No dia seguinte, acordo de manhã com uma ressaca (ei, é fim de semana!), Olho para o meu telefone e vejo um monte de SMS mensagens "$ server going down". outro "no-break principal caindo".

Pego as chaves, dirijo para os escritórios e abro a sala do servidor, para descobrir que ela fica por volta de 60 ° C e todo o equipamento está desligado.

Acabei arrastando alguns ventiladores para expulsar o ar quente, antes que eu pudesse iniciar o funcionamento do AC, sem mencionar o no-break e os mais de 40 servidores e equipamentos de comunicação. E passar o fim de semana no escritório, é claro. E agradecendo a todas as divindades por unidades inteligentes de no-break que podem reduzir tudo muito bem se a temperatura ambiente for muito alta. Eu sempre mantenho um capuz por aí desde então e nunca desligo o AC

1
dyasny

Dez, mais anos atrás, eu estava trabalhando em um projeto que exigia um proxy SOCKS. Eu estava usando um programa chamado WinGate que, além do proxy SOCKS, fornecia uma agradável funcionalidade de gateway de Internet com NAT, DHCP e algumas outras gentilezas. Isso foi antes do Windows ter o compartilhamento de Conexão com a Internet, então o WinGate permite que você compartilhe seu modem dial-up com sua rede Ethernet.

Instalei o software e comecei a trabalhar na funcionalidade do cliente SOCKS. Mais tarde naquele dia, perdemos a conectividade com a Internet. De repente, parou e ninguém conseguiu acessar fora da empresa. Ligamos para o nosso ISP e tudo parecia bem na conexão. O roteador estava funcionando bem. Nós simplesmente não conseguimos descobrir o que deu errado. Entrei em um ponto porque tinha algum conhecimento de TCP/IP, mas não fiz nenhum progresso.

No dia seguinte, nosso pessoal de TI descobriu que o servidor DHCP havia fornecido o endereço do roteador à máquina de alguém, e todo mundo estava usando-o para o gateway padrão que não ia a lugar algum. Mais tarde naquele dia, nosso técnico de TI entrou no meu escritório e perguntei: "Então você descobriu quem deu o endereço IP errado?" Ele disse: "Sim, é você!"

O WinGate deixou de executar um servidor DHCP e deu o endereço do roteador ao primeiro cliente cujo endereço anterior expirou. Fiquei muito vermelho por um tempo.

1
David Smith

No começo, quando eu era jovem, estava tentando ser 'útil' e tentei copiar 250 MB de dados em uma linha de 128 kbit/s para 86 sites diferentes ao mesmo tempo ... durante o horário comercial. Enquanto fazia isso, ouvi pessoas perguntando por que tudo estava demorando tanto.

Escusado será dizer que eu matei as transferências e (felizmente) ninguém sabia que era eu!

1
JFV

Criamos sistemas IVR turnkey para clientes em caixas Unix. Uma vez, os desenvolvedores tiveram todo o seu código no/devel. Eles me pediram para remover os diretórios e caixas de desenvolvimento e levar os servidores ao aeroporto em uma tarde de domingo (meu dia de folga!). Na minha pressa, apaguei/dev/*. Instantaneamente vi meu erro, sentou-se e ponderou por um minuto. Não tendo certeza se o sistema morreria se o kernel não tivesse ganchos para os dispositivos do sistema, procurei o diretório/dev em uma máquina idêntica e, em ordem, o mknod [c | b] major major para restaurar as unidades de teclado, tty, scsi, fd0 e null criaram um disquete na outra máquina/dev, montaram e copiaram localmente para obter o restante.

Ainda não faço ideia do que teria acontecido se eu deixasse as coisas sozinhas, mas tenho certeza de que teria sido infeliz ao reiniciar :)

Lição aprendida - o diretório de desenvolvimento não pode ser chamado de/devel.

1
schemathings

Isso aconteceu quando eu tinha acabado de iniciar meu primeiro trabalho de suporte na uni. Eu estava conectado ao servidor de 2003 de um cliente tentando acessar uma das máquinas do usuário depois que ele se queixou de problemas de conectividade.

Conversei com ela por meio de uma solução básica de problemas e percebi que ela tinha um IP estático, então comecei a conversar com ela sobre a configuração para DHCP. Abri as propriedades na conexão LAN no servidor para usar enquanto eu falava com ela sobre o que fazer. Depois de fazer com que ela tentasse configurá-lo novamente para o DHCP, ele ainda tinha um IP estático; portanto, solicitou que ela desativasse a conexão e a reativasse.

Agora, nesse ponto, eu estava fazendo tudo o que estava dizendo a ela no servidor, sem realmente alterar as configurações, até o momento em que pedi a ela para clicar com o botão direito do mouse na conexão LAN e clicar em desativar, o que também fiz.

Levei talvez meio segundo para perceber o que acabara de fazer.

Demorou talvez 10 minutos para os outros engenheiros pararem de rir de mim antes que um deles tivesse que dirigir por uma hora para reativar o NIC no site dos clientes.

1
Darren Mac

Eu costumava cuidar de vários servidores de banco de dados, cada um com um ciclo de desenvolvimento e teste bem definido. Nossa função era lançar as alterações fornecidas pelos desenvolvedores, usando a documentação do ambiente de teste no ambiente de teste do cliente para teste antes de serem lançadas. Como parte disso, o ambiente de teste do cliente foi criado a partir do backup mais recente do ambiente ativo.

Tudo isso foi devidamente documentado, juntamente com o processo de inserção da alteração no ambiente ativo depois que o cliente assinou a alteração.

Tivemos um novo começo em nossa equipe e, depois que ele esteve conosco por alguns meses, deixamos que ele participasse de vários ciclos de mudança até uma noite fatídica que deixamos ele fazer isso sozinho. O teste do cliente foi tranquilo e o cliente concordou com a mudança.

O novo começo fez exatamente o que ele fez toda vez que introduziu a mudança no ambiente de teste, confiante de que não precisava seguir a documentação que o resto de nós fazia. Etapa (1), reconstrua a partir do backup anterior ...

Na manhã seguinte, o cliente percebeu que faltava o trabalho do dia anterior e não demoramos muito para descobrir o que havia acontecido. Felizmente, os bancos de dados tinham o log de alterações ativado, para que pudéssemos recuperar toda a atividade. O novo começo aprendeu pelo menos a valorizar a documentação e segui-la no futuro.

1
Cry Havok

Eu tive um bom novo acontecer comigo semana passada.

Eu pedi a um dos meus funcionários que construísse um servidor DNS temporário para uma plataforma de teste que estamos construindo. Pedi aos nossos funcionários do DNS que atualizassem um domínio de teste específico para apontar para esse novo servidor DNS temporário, mas o cara atualizou o registro ao vivo e não o teste. .

De repente, esse servidor (felizmente uma nova caixa, portanto, uma especificação razoável) atende a quase todas as solicitações de DNS para quase 5 milhões de usuários - 400 milhões de solicitações no primeiro dia! - felizmente, o TTL foi de apenas 24 horas), por isso é drenado agora.

1
Chopper3

Dimensão totalmente diferente, mas ainda é um acidente do administrador do sistema.

Desculpe: Você precisa entender algumas gírias italianas para conseguir isso. Não pode ser traduzido. Você precisa saber de cor

Me pediram para consertar algo em um servidor Solaris em Napoli, Itália. Eu precisava da senha de root e não falava muito italiano na época. Os caras pareciam relutantes em me dizer o que era. Finalmente, um deles meio sussurrou:

sticazzi

Eu disse: Aha, 'sticazzi'. Como você soletra isso?, e deu a ele um pedaço de papel + caneta.

Um ano depois eu conheci M.*o B.* novamente (Olá! - se você leu isso). Na época, meu italiano era muito melhor. Eu disse a ele que agora sei um pouco mais de italiano.

Essa foi uma risada difícil.

A moral da história: Se você precisar solicitar a senha root em um idioma que você não conhece, uma vez que ela lhe seja melhor rir, corar e parecer insultada ao mesmo tempo.

1
fredarin

Todo mundo 'rm -rf /' está em algum momento acidentalmente. O meu estava tentando excluir alguns dos arquivos extras no meu diretório pessoal 2 dias antes do término da minha última atribuição de estruturas de dados.

Profissionalmente, tenho sido capaz o suficiente para não ter nenhum problema catastrófico até agora.

1
sclarson

Isso não aconteceu comigo, mas acho que é uma história realmente agradável.

Esses caras estavam trabalhando com um daqueles antigos servidores de torre completa Solaris que, como eu sei, estavam mantendo bancos de dados para vários bancos de dados Informix que esta empresa possuía. Esta era uma empresa de serviços básicos, para que você possa imaginar a quantidade de dados que isso significa.

Houve um ponto em que várias configurações por meio de servidores foram copiadas em um disquete e depois transmitidas de servidor para servidor. Depois de trabalhar com um servidor, eles apenas ejetariam o disquete e passariam para o próximo.

Acompanhado por outra pessoa no grupo sysadmin, esse cara estava trabalhando nessas configurações enquanto conversavam sobre coisas aleatórias. Ele terminou o passo e apertou o botão para ejetar o disquete.

- "ESPERA! Não solte o botão!"

Quando ele olha novamente, ele pressionou o botão de reset por erro e não o botão de ejeção. No momento em que ele soltou esse botão, todo o sistema de banco de dados da empresa seria desligado imediatamente. (Eu pensei que esses botões eram instantâneos ... mas é assim que a história se passa.)

Portanto, todo administrador de sistemas interrompe o que está fazendo para ligar para os gerentes de departamento e "diz a todos para fazer logoff do sistema. Agora". enquanto esse cara parece tudo acontecendo anexado a um servidor pelo dedo.

1
Alpha

Ao configurar um endereço IP estático em /etc/network/interfaces em uma caixa Debian, alguém acidentalmente trocou os endereços IP na linha de endereço IP e na linha de gateway.

Adivinha o que acontece quando você "rouba" o IP do switch central?

1
prestomation

Ah, um dia eu excluí um banco de dados do PostgreSQL inadvertidamente e o recuperei dos arquivos de log;)

0
maciek

Felizmente, consegui me recuperar facilmente do que estou prestes a compartilhar com você. Então você já ouviu falar dos infames

rm -rf /
deltree/a/s/b \

Meu problema era que eu digitei isso e sabia que estava errado, então pressionei a tecla backspace, mas a gordura tocou nela e pressione a tecla Enter! Levei literalmente apenas 2 segundos para perceber o que tinha feito, então comecei furiosamente a pressionar ctrl-c repetidamente para abortar a operação. Quando o interrompi, metade do sistema de arquivos havia desaparecido.

Backups para o resgate, meus amigos! Além de uma reinicialização, não havia outro tempo de inatividade. Num certo sentido, tive muita sorte naquele dia porque tinha ótimos backups em vigor.

0
jftuga

No começo da administração do sistema, inventei um novo método para fazer o processo de inventário (inventário) de nossas lojas de varejo. Peguei muitos laptops e liguei scanners de código de barras a eles e agilizei o processo dez vezes mais do que o normal, como quando escrevíamos todos os artigos com caneta no papel. Também comprei alguns terminais portáteis Symbol PDT DOS. Para prolongar a vida útil das baterias dos terminais Symbol, criei minhas próprias baterias e liguei os fios manualmente. Naquela noite e na manhã seguinte, eu estava tão orgulhosa de mim mesma e como um pavão andando pelo escritório dizendo o quão inteligente eu era.

O pesadelo começou quando eu estava enviando dados para o servidor para fazer um cálculo e comparação de estoque e listas. Um dos dispositivos da Symbol com uma bateria extra foi intermitente porque um dos fios havia passado e o dispositivo ficou sem energia por um longo tempo.

Agora todo o trabalho de cerca de 100 empregadores caiu na água. Qual é o objetivo de 13 ou 15 dispositivos e a lista deles, se eu não os tiver? Como eu poderia saber o que estava faltando no inventário.

Para descrever melhor meu desastre, tivemos apenas alguns dias de folga no ano. É quando fechamos nossas lojas e fazemos um balanço, e esse evento custa à nossa empresa muito dinheiro e esforço.

Para minha sorte, nosso diretor e chef desse novo julgamento foi razoável e aceitou listas de inventário como estavam no computador naquele ano.

Depois disso, sempre faço duas cópias dos dados enquanto o trabalho ainda está em andamento e logo após o término do processo de inventário, é claro que não me gabo mais.

0
adopilot

Eu sou um administrador de sistemas novato/hobbiest com apenas 30-40 sites hospedados no meu servidor, então isso não foi tão ruim. Eu estava removendo permissões de execução em todos os arquivos no diretório/bin/xxx e todos eles começaram.

Então, tomando a ação óbvia, corri

chmod -R a-x .*

Uau. Quando você remove as permissões de execução no seu diretório bin, é bastante trabalhoso limpar. Os técnicos do data center tiveram que inicializar em um CD ao vivo para consertar. A melhor parte foi que tive que orientá-los sobre como consertá-lo. A pior parte é que eles ainda sabiam o suficiente para rir de mim: P

0
Brandon Wamboldt

Nos primeiros dias da Internet, eu rodava tudo nos servidores SGI Challenge S. A certa altura, sem o meu conhecimento, o "departamento de arte" solicitou à IKON um servidor de impressão de renderização demo. Andamos em uma manhã, Desafio agindo de maneira engraçada, chamadas de administrador para a sala do servidor, passamos por diagnósticos de rotina, etc. finalmente, digo que TEM DE SER A fonte de alimentação. Claro que não temos reposição. Volto ao escritório principal - vejo a máquina emprestada e percebo - também é um SGI - abro, desaparafuse a fonte de alimentação, reinicie o servidor - bingo! Pedimos uma folga durante a noite, o representante aparece no AM para perguntar como gostamos da demonstração, temos que cantarolar hummada por 30 minutos até a FedEx aparecer e trocar novamente as fontes de alimentação e rolar a caixa de demonstração para fora da porta. Tudo em um dia de trabalho.

0
schemathings

Há muito tempo, decidi alterar o ponto de montagem da minha partição de dados. Então, criei um novo diretório, alterei o ponto de montagem em/etc/fstab e excluí o diretório em que estava montado anteriormente.

O problema é que só percebi que as partições ainda estavam montadas no diretório antigo quando o nautilus me mostrou uma barra de progresso (para o que deveria ser uma exclusão de 4Kb). Felizmente, pude cancelá-lo antes que um grande dano fosse causado, mas perdi alguns arquivos.

0
Flávio Amieiro

Durante a manutenção em um local compartilhado, puxei nosso cabo de alimentação DNS primário. Eu estava substituindo o secundário na época e devo ter puxado o cabo antes de fechar o rack. Todos os nossos sites começaram a cair rapidamente e eu tive que voltar ao local co-local para conectar a coisa estúpida.

0
Snipper

Na minha primeira tarefa de instalação (há muitos anos, na era do DOS), apago acidentalmente quase todos os arquivos do sistema e metade dos aplicativos do computador que pertence ao diretor da instituição pública. Mas não foi minha culpa. Tento excluir arquivos não importantes na pasta C:/TEMP para liberar algum espaço. A exclusão começa ... depois de alguns instantes, vejo alguns nomes familiares da raiz e da pasta DOS rolando para cima na tela ... Pressionando Ctrl + Break ... mas é tarde demais ...

Essa foi a maneira mais difícil de aprender qual é o problema dos arquivos reticulados no sistema de arquivos FAT.

0
miHost

Temos uma instalação de teste a frio para nossos engenheiros no norte de Minnesota. Há cerca de dez anos, o T1 que tínhamos lá em cima morreu. Nós transferimos os servidores dessa instalação para o nosso datacenter principal porque instalamos a linha mais rápida, então praticamente tudo era inútil lá em cima. Venha descobrir que algum fazendeiro no centro de Minnesota havia passado pela fibra com algum equipamento agrícola. Não ficamos muito felizes com o fato de a fibra estar acessível a esse equipamento e não ter sido enterrada muito mais fundo ...

0
squillman

Imagine uma xícara de café. É um copo cheio, com açúcar. Imagine-o seriamente extraviado na bandeja retrátil do teclado do rack. Um rack cheio de servidores. De alguma forma, a bandeja é empurrada para dentro do rack. O copo entra no rack e depois tomba.

A culpa foi minha, e eu era um administrador experiente até então, então não tenho desculpas. Havia um banheiro por perto e eu era capaz de limpar a maior parte da bagunça com toalhas de papel. Felizmente, não entrou café suficiente nos servidores, então eu os desliguei e os limpei bem. Apenas 400 usuários afetados. Ufa!

Depois houve outro acidente, como é o caso, que aconteceu com um amigo meu. Ele dedicou os últimos 10 anos construindo sua própria empresa. Ele tem cerca de 15 funcionários e todos os dados da empresa estavam nesse servidor. Isso incluía todos os projetos passados ​​e presentes, muitos dados do cliente, informações que ele havia sido contratado para manter em segurança, todas as informações de contato etc. Tudo bem criptografado com o LUKS. Eu o incomodava há muito tempo para fazê-lo começar a fazer backups, mas ele nunca o fez. Muito ocupado, sem fundos, você entendeu. Ele estava confiante de que seu RAID1 o salvaria. Seu último backup tinha 8 meses. Esse também foi o tempo de atividade do servidor dele. Ele havia alterado sua senha LUKS logo antes da última reinicialização, oito meses antes disso. Agora, ele reiniciou o servidor e percebeu que não havia anotado a nova senha e não se lembrava. Tudo o que ele conseguia se lembrar era de que era muito longo, e tinha várias palavras aproximadamente arranjadas de alguma maneira com algum tipo de capitalização e possivelmente símbolos jogados.

Você pode imaginar o grau de desmoralização entre seus funcionários e a raiva dos clientes que tiveram que reenviar suas informações para processamento, aprendendo que seus dados estavam "temporariamente" indisponíveis. Para resumir uma longa história, levei cerca de 40 horas de trabalho, 14 dias de tempo de execução e um programa especializado para gerar e testar mais de um milhão de senhas para finalmente encontrar sua senha LUKS.

0
joechip

Vários anos atrás, nosso administrador do iSeries na época estava fazendo uma limpeza na área em que nossos servidores IBM iSeries estavam na sala de computadores. Isso foi por volta das 8:30 da manhã. Assim que comecei a trabalhar com o que estava trabalhando na época. A tela ficou em branco alguns segundos depois, as ligações começaram a chegar.

Venha descobrir, quando ele mudou uma mesa, o cabo de força estava enrolado na perna apenas o suficiente para sair quando ele mudou a mesa.

Cerca de duas horas depois, depois que o sistema se recuperou do desligamento, as pessoas puderam trabalhar novamente.

0
Mike Wills

Nós tivemos um pouco de confusão alguns anos atrás. No meio da manhã, os usuários começaram a relatar muitos erros sobre o bloqueio ao acessar nosso aplicativo hospedado no SQL Server. O aplicativo pára completamente - ninguém pode fazer nada. Em vez de descobrir o que está causando isso, fazemos uma reinicialização de emergência e tudo começa a funcionar novamente. Então começo a vasculhar os vários logs para ver o que pode ter sido desencadeado e, pouco antes de tudo dar certo, encontro uma transação com nome aberto na tabela principal sem um COMMIT correspondente.

Acontece que meu colega havia escrito um pouco de SQL no Query Analyzer para corrigir alguns dados incorretos na tabela principal, e ele os colocou dentro de uma transação. Mas, em vez de apenas pressionar F5 para executá-lo, ele destacou a coisa toda e bateu em F5. Exceto que ele não tinha bastante destacado tudo ... ele perdeu o final onde realmente comprometeu a transação ... deixando a mesa trancada.

0
MartW