it-swarm-pt.tech

Quantas realocações de setor SMART indicam problemas?

Eu tenho um NAS com pouco mais de um mês. Ele está configurado para enviar-me por e-mail alertas gerados a partir dos discos rígidos 'SMART. Após um dia , um dos discos rígidos relatou que um setor estava com defeito e foi realocado. Na primeira semana, esse número subiu para seis setores totais para o disco rígido em questão. Depois de um mês, o número está em nove setores realocados. A taxa definitivamente parece estar desacelerando.

O NAS é configurado com seis unidades 1.5 TB em uma configuração RAID-5. Com essas unidades de alta capacidade, eu esperaria que um setor falhasse de vez em tempo, então eu não fiquei preocupado quando os primeiros setores foram realocados.Mas me incomoda que nenhum dos outros discos esteja relatando problemas.

Com que taxa de realocações, ou número total de realocações, devo começar a me preocupar com a saúde do drive? Isso pode variar com base na capacidade da unidade?

17
Jeremy

As unidades, como a maioria dos componentes, têm uma taxa de falha na curva da banheira. Eles falham muito no início, têm uma taxa de falha relativamente baixa no meio e falham muito quando chegam ao fim de sua vida útil.

Assim como toda a unidade segue essa curva, áreas específicas do disco também seguem essa curva. Você verá muitas realocações de setor no início do uso da unidade, mas isso deve diminuir gradualmente. Quando a unidade começar a falhar no final da vida útil, ela começará a perder cada vez mais setores.

Você não precisa se preocupar com 6 (dependendo do drive - consulte o fabricante), mas você precisa observar e ver a frequência de cada nova realocação. Se a deterioração acelerar ou permanecer a mesma, preocupe-se. Caso contrário, deve ficar bem após o período de amaciamento inicial.

-Adão

13
Adam Davis

Relendo o artigo do Google sobre o assunto, " Tendências de falha em uma grande população de unidades de disco ", acho que posso dizer com segurança que a resposta de Adam está incorreta. Em sua análise de uma população extremamente grande de unidades, cerca de 9% tiveram contagens de realocação diferentes de zero. A citação reveladora é esta:

Após a primeira realocação, as unidades têm 14 vezes mais probabilidade de falhar em 60 dias do que as unidades sem contagens de realocação, tornando o limite crítico para este parâmetro também um.

É ainda mais interessante quando se lida com "realocações off-line", que são realocações descobertas durante a limpeza em segundo plano da unidade, não durante as operações IO reais solicitadas. Sua conclusão:

Após a primeira realocação offline, as unidades têm mais de 21 vezes mais chances de falha em 60 dias do que as unidades sem realocações offline; um efeito que é novamente mais drástico do que realocações totais.

Minha política de agora em diante será que as unidades com contagens de realocação diferentes de zero sejam agendadas para substituição.

20
Insyte

Unidades diferentes provavelmente têm parâmetros diferentes. Em uma unidade que verifiquei pela última vez que era um disco da série empresarial de 1 TB de um fornecedor, havia 2.048 setores reservados para realocação.

Você pode estimar o número de setores reservados olhando no relatório S.M.A.R.T. em uma unidade que tem um número diferente de zero de setores realocados. Considere um relatório sobre uma unidade com falha abaixo.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Aqui, 95% de sua capacidade reservada foi utilizada, ou seja, 1955 setores. Portanto, a capacidade inicial era cerca de 2057. Na verdade, é 2048, a diferença se deve ao erro de arredondamento.

O S.M.A.R.T. transforma a unidade em um estado de falha quando o número de setores realocados atinge um certo limite. Para a unidade em questão, esse limite é definido em 64% da capacidade reservada. Isso é aproximadamente 1310 setores remapeados.

No entanto, os setores reservados não estão em um período contínuo. Em vez disso, eles são divididos em vários grupos, cada grupo está sendo usado para remapear setores de uma parte específica do disco. Isso é feito para manter os dados locais em uma área do disco.

A desvantagem da localidade é que o disco pode ter muitos setores reservados. No entanto, uma área pode já ficar sem capacidade reservada. Neste caso, o comportamento depende do firmware. Em uma unidade, observamos que ele entra em um estado FALHA e bloqueia quando ocorre um erro em uma peça que não está mais protegida.

3
Dmitri Chubarov

Você pode querer executar um auto-teste longo S.M.A.R.T., Se a unidade for compatível. Isso pode fornecer mais informações sobre o status da unidade. Se o seu NAS não puder fazer isso e se você puder puxar a unidade ou desligar o NAS por algumas horas, então você pode fazer o autoteste longo com o disco rígido conectado a outra máquina.

2
Eddie

Quando uma unidade, este novo se comporta assim, não é confiável!

Envie-o de volta o mais rápido possível e obtenha uma unidade de substituição.

1
Nils-Anders Nøttseter

Diferentes fabricantes têm diferentes números de "perdas aceitáveis" (mesma ideia dos monitores e pixels danificados). Consulte o fabricante da unidade para descobrir qual é o seu padrão.

Mas parece uma tendência ruim ...

1
Brian Knoblauch