Ошибки памяти ECC, вызывающие случайные перезагрузки сервера

Я использую Ubuntu Server 14.04 на Supermicro X10SLM-F / Xeon E3-1271 v3

Память: SuperTalent 32 ГБ DDR3 1600 ECC

Примерно каждые 4 дня в логах Ubuntu будет показано следующее:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Сразу после этого сервер перезагружается в режиме "выключения питания".

Когда я смотрю в журнале событий BIOS, я вижу это:

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

И описание ошибки:

Single Bit ECC Memory Error

ipmitool в Ubuntu показывает это:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

Несколько вопросов:

  1. Если память ECC является самокорректирующейся, почему машина перезагружается сама?

  2. Возможно, мне не хватает какой-то настройки в BIOS, которая не дает самой коробке перезагрузиться?

  3. Это, очевидно, проблема с картой памяти, или это может быть проблема слота или проблемы с процессором?

  4. Как остановить сервер от перезагрузки?

Спасибо за любой совет.

3 ответа

Решение

Система не должна перезагружаться при исправляемой ошибке памяти. Видите ли вы дополнительную информацию / шаблон через ipmitool sel elist? Сторожевой таймер BMC может перезагрузить систему, проверить, включена ли она через ipmitool mc watchdog get, Поскольку у вас уже есть информация о местонахождении неисправного модуля памяти, замените его, и, если проблема снова возникнет, возможно, неисправен слот памяти.

X10SLM-F используемой ОЗУ нет в списке протестированных модулей ОЗУ - если у вас есть такая возможность, замените все панели памяти в "проблемной" системе на эквивалентные, протестированные Supermicro. Также проверьте список поддерживаемых ОС для вашей версии Ubuntu.

Относительно настроек CMOS, вы можете использовать Supermicro SUMпри условии, что у вас установлены ключи SUM, чтобы сбросить настройки BIOS со всех систем, тогда vimdiff чтобы увидеть, есть ли какой-либо параметр CMOS, отличающийся для систем, которые регулярно перезагружаются, по сравнению с системами, которые этого не делают.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Я видел ту же проблему с этой платой, версия 1.02. Я думаю, что это имеет конкретную проблему. Я покупаю много досок SM, и они обычно довольно хороши. Я думаю, что есть проблема с этой платой, если все DIMMS заполнены. Я использую Windows, и я получаю синий экран, например.

Попробуйте использовать только 16 ГБ (только 2 слота), и я уверен, что проблема исчезнет. Я знаю, что это не решение, но поможет диагностировать странное поведение. Я даже отправил доску обратно в СМ, и они сказали, что все в порядке, может быть, они не тестировали с 4 модулями DIMM.

Это аппаратное обеспечение Supermicro, поэтому оно недорогое и не нуждается в полировке и интеграции Dell, HP или IBM...

ECC RAM исправляет ошибки, но, вероятно, превышен порог. Вероятно, данный модуль DIMM не работает, и вы должны заменить его.

Вы можете попытаться идентифицировать модуль по слоту и заменить его. Так как это происходит с частотой, будет легко определить проблему.

Кроме того, посмотрите на соответствующие вопросы справа от этого вопроса.

Другие вопросы по тегам