it-swarm-pt.tech

Este é um erro crítico de RAID?

Se eu fizer o seguinte

/opt/MegaRAID/MegaCli/MegaCli -LDInfo -Lall -aAll -NoLog  > /tmp/tmp
/opt/MegaRAID/MegaCli/MegaCli -LDPDInfo     -aAll -NoLog >> /tmp/tmp

então eu vejo esses erros

Media Error Count: 11
Other Error Count: 5

Pergunta

O que eles significam? Eles são críticos?

Saída total:

Adapter 0 -- Virtual Drive Information:
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default


Adapter #0

Number of Virtual Disks: 1
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default
Number of Spans: 1
Span: 0 - Number of PDs: 5
PD: 0 Information
Enclosure Device ID: N/A
Slot Number: 0
Device Id: 0
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000000000000
Connected Port Number: 0 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9523610

PD: 1 Information
Enclosure Device ID: N/A
Slot Number: 1
Device Id: 1
Sequence Number: 2
Media Error Count: 11
Other Error Count: 5
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000001000000
Connected Port Number: 1 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9507278

PD: 2 Information
Enclosure Device ID: N/A
Slot Number: 2
Device Id: 2
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000002000000
Connected Port Number: 2 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9504713

PD: 3 Information
Enclosure Device ID: N/A
Slot Number: 3
Device Id: 3
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000003000000
Connected Port Number: 3 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9503028

PD: 4 Information
Enclosure Device ID: N/A
Slot Number: 4
Device Id: 4
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000004000000
Connected Port Number: 4 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9503793
8
Sandra

Você tem problemas com a unidade no slot 1. É RAID 5, portanto seus dados estão protegidos, mas você perdeu a redundância (um disco não é confiável). Erro de mídia significa que a unidade fica sem setores sobressalentes para remapear setores defeituosos para (http://kb.lsi.com/KnowledgebaseArticle15809.aspxhttp://mycusthelp.info/LSI/_cs/AnswerDetail.aspx?inc=7468 ). Se fossem meus dados, eu seria duplamente escrupuloso ao fazer backup, remova a unidade, substitua-a por uma nova e sincronize a matriz. Alguns fornecedores (por exemplo, IBM) aceitarão RMA com base em indicadores preditivos de falha, outros não. Se o seu fornecedor não aceitar um disco com setores defeituosos e irrecuperáveis ​​como defeituosos, retire-o da matriz e faça exercícios em um sistema de teste. Deve falhar em tempo razoável.

Editar:

Os eventos de mídia eram diferentes de zero apenas para o disco com o ID do slot 1. No log que você forneceu, há um ID de slot para cada entrada. O estranho é que o ataque reporta seu estado como ideal, apesar dos erros de mídia no disco. Ainda assim, eu não confiaria no disco.

O RAID 5 fabricado com n discos do mesmo tamanho oferece capacidade para (n-1) discos, porque armazena o valor de um disco de dados de redundância. Portanto, se você tiver seis discos de 250 GB e 1T de espaço utilizável, é provável que eles sejam divididos em RAID 5 de 5 discos (o que fornece 4x250 GB de espaço utilizável) mais 1 disco sobressalente.

10
Paweł Brodacki

na verdade smartctl pode fornecer informações detalhadas sobre cada disco no ataque MegaRaid. para obter informações sobre o disco físico nº 0, execute:

smartctl -a -d megaraid,0 /dev/sda|less

como Pawel corretamente aponta provavelmente os setores realocados, mas tive alguns casos em que problemas de comunicação [visíveis no smartctl -l xerror -d megaraid, 5/dev/sda] foram relatados como Contagem de erros de mídia .

7
pQd

Enquanto sua matriz estiver em funcionamento, ela deverá estar ok. O contador de erros de mídia pode aumentar a partir de eventos como uma realocação de setor com falha em uma das unidades, enquanto o outro contador de erros pode ser aumentado por qualquer evento não problemático (redefinição do dispositivo de barramento, ciclo de energia, etc.). No entanto, se o erro for crítico, a unidade será automaticamente removida da matriz pelo controlador e relatada como com falha. Nesse caso, você precisará executar uma ação.

Seria ótimo se o smartctl fosse capaz de fornecer informações detalhadas SMART sobre o status do megaraid e da unidade individual, mas acho que não é compatível). Experimente apenas por precaução.

2
O G

Às vezes, as unidades geram erros de leitura e, na minha experiência, geralmente quando isso acontece, eu posso executar "badblocks" nela para testar a unidade com estresse, e a unidade pode relatar alguns erros desde o início, mas depois que a unidade estiver estressada um pouco continuará a relatar erros; nesse caso, é ruim ou não relatará erros.

Eu percebi que isso ocorreu devido a alguns setores da unidade serem marginais, e o remapeamento de bloco ruim só pode ser ativado quando você estiver gravando no disco, e não lendo. Se você gravar dados em um setor com problemas, a unidade deverá relatar um erro ao lê-los, porque, se apenas remapear esse setor silenciosamente para um dos setores sobressalentes, retornará dados inválidos em vez de um erro. Mas, em uma gravação, se perceber que o setor está ruim, ele pode gravar esses dados em um setor sobressalente e remapear.

Infelizmente, você não pode limpar essa contagem de erros; portanto, se você possui um monitoramento que relata erros de mídia, é necessário substituir a unidade ou fazê-lo para que você possa dizer ao monitoramento para ignorar esse ou aquele muitos erros e relatar apenas quando for alterado novamente.

Você pode verificar a unidade SMART com smartctl (obrigado, @pQd, eu não sabia disso) com:

MegaCli64 -PDList  -aALL | grep -e '^$' -e Slot -e Count
#  Find the slot number to use for "X".
#  For "Y" use the device name the system knows, such as "sda".
smartctl -a -d megaraid,X /dev/sdY

Provavelmente não é totalmente irracional reconstruir a unidade e verificar se ela continua com problemas. Com o MegaRAID, você pode fazer isso com estes comandos:

#  WARNING: Make sure the array is "Optimal" first, this will degrade it.
MegaCli64 -LDInfo -Lall -aALL | grep State
#  NOTE: This assumes drive 3 of Enclosure 32 for adapter 0
MegaCli64 -PDOffline -PhysDrv [32:3] -a0
MegaCli64 -PDRbld -Start -PhysDrv [32:3] -a0

#  Now check the rebuild status until it completes:
MegaCli64 -PDRbld -ShowProg -PhysDrv [32:3] -a0

# And the array status should go back to Optimal
MegaCli64 -LDInfo -Lall -aALL | grep State

Eu costumava fazer com que as unidades saíssem da matriz RAID o tempo todo (talvez uma vez por mês ou dois, em uma amostra de 100 a 200 unidades). Mas as unidades não estavam tão ruins depois que eu as substituí.

Comecei a gravar em todas as unidades antes de colocá-las em produção, usando "badblocks" por cerca de uma semana, e depois que comecei a fazer isso, o número dessas interrupções de matriz reduziu drasticamente. Agora isso acontece talvez duas vezes por ano, em 500 unidades.

Este é um teste destrutivo, portanto, verifique se você não possui dados na unidade:

badblocks -svw -p 5 /dev/sdX

Onde "sdX" é o dispositivo para testar. Tenha muito cuidado aqui, escolher a unidade errada destruirá seus dados. Eu executo meus testes em uma máquina autônoma no meu banco de testes.

0
Sean Reifschneider