it-swarm-pt.tech

O que é ram ​​ECC e por que é melhor?

Vi uma discussão sobre o uso de ram ECC em servidores. Porque é melhor?

31
Toby Allen

ECC RAM pode se recuperar de pequenos erros em bits, utilizando bits de paridade. Como os servidores são um recurso compartilhado onde o tempo de atividade e a confiabilidade são importantes, ECC RAM geralmente é usado com apenas uma modesta diferença de preço.CEC RAM também é usado em estações de trabalho CAD/CAM quando pequenos erros de bits podem causar erros de cálculo que se tornam problemas mais significativos quando um projeto é fabricado).

28
Waldo

Excelente estudo do mundo real:

Erros DRAM em estado selvagem: um estudo de campo em larga escala (pdf)

Este artigo fornece o primeiro estudo em larga escala de erros de memória DRAM em campo. Ele se baseia nos dados coletados da frota de servidores do Google por um período de mais de dois anos, perfazendo muitos milhões de dias DIMM. A DRAM em nosso estudo abrange vários fornecedores, densidades e tecnologias de DRAM (DDR1, DDR2 e FBDIMM).

O artigo aborda as seguintes perguntas: Qual é a frequência dos erros de memória na prática? Quais são as suas propriedades estatísticas? Como eles são afetados por fatores externos, como temperatura e utilização do sistema? E como eles variam com fatores específicos de chip, como densidade de chips, tecnologia de memória e idade de DIMM?

Descobrimos que, em muitos aspectos, os erros DRAM no campo se comportam de maneira muito diferente do que normalmente se supõe. Por exemplo, observamos taxas de erro de DRAM que são ordens de magnitude superiores às relatadas anteriormente, com taxas de FIT (falhas no tempo por bilhão de horas de dispositivo) de 25.000 a 70.000 por Mbit e mais de 8% dos DIMMs afetados por ano. Fornecemos fortes evidências de que os erros de memória são dominados por erros físicos, em vez de erros físicos, nos quais a maioria dos trabalhos anteriores se concentra. Descobrimos que, de todos os fatores que afetam o comportamento de erro de um DIMM no campo, a temperatura tem um efeito surpreendentemente pequeno. Por fim, diferentemente do temido, não observamos nenhuma indicação de que as taxas de erro por DIMM aumentem com as novas gerações de DIMMs.

Interessante que a maioria dos erros de memória era difícil - os erros de memória são irrecuperáveis, o que significa que a memória deve ser fisicamente substituída como falha, enquanto os erros de memória flexível podem ser corrigidos sobrescrevendo a memória com o valor correto . Isso indica para mim que o valor do ECC é bastante limitado.

Existem dois tipos de erros que geralmente podem ocorrer em um sistema de memória. O primeiro é chamado de erro repetitivo ou difícil. Nessa situação, um pedaço de hardware está quebrado e sempre retorna resultados incorretos. Um bit pode ficar travado para que ele sempre retorne "0", por exemplo, não importa o que seja gravado nele. Erros físicos geralmente indicam módulos de memória soltos, chips queimados, defeitos na placa-mãe ou outros problemas físicos. Eles são relativamente fáceis de diagnosticar e corrigir porque são consistentes e repetíveis.

Parece que todos os servidores do estudo usaram ECC, portanto, não podemos saber taxas de erro de ECC vs. não-ECC.

Este artigo estudou a incidência e as características dos erros de DRAM em uma grande frota de servidores básicos. Nosso estudo é baseado em dados coletados ao longo de mais de 2 anos e abrange DIMMs de vários fornecedores, gerações, tecnologias e capacidades. Todos os DIMMs foram equipados com lógica de correção de erros (ECC) para corrigir pelo menos erros de bit único.

29
Jeff Atwood

O ECC tem várias vantagens sobre a paridade. Por um lado, ele pode detectar e reparar erros de bit único e fazê-lo sem precisar parar o sistema inteiro. Erros de vários bits ainda retornam um erro de paridade, mas as chances de isso acontecer são astronomicamente baixas durante a vida útil de um PC, a menos que a própria memória esteja com defeito. O ECC é como o seguro de automóvel: ele cobre a maioria das coisas que podem dar errado, mas não pode impedir um acúmulo de carros.

mais detalhes aqui: Memória ECC: essencial para servidores, não para PCs de mesa

9
TStamper

Para simplificar, citando Wikipedia :

A interferência elétrica ou magnética dentro de um sistema de computador pode fazer com que um único bit de DRAM mude espontaneamente ao estado oposto. Inicialmente, pensou-se que isso se devia principalmente às partículas alfa emitidas por contaminantes no material de embalagem dos chips, mas pesquisas [5] mostraram que a maioria dos erros pontuais ("suaves") nos chips DRAM ocorre como resultado da radiação de fundo
...
Esse problema pode ser atenuado usando módulos DRAM que incluem bits de memória extras e controladores de memória que exploram esses bits. Esses bits extras são usados ​​para registrar paridade ou usar um código de correção de erros

5
Chealion