Ошибки памяти ECC, вызывающие случайные перезагрузки сервера
Я использую Ubuntu Server 14.04 на Supermicro X10SLM-F / Xeon E3-1271 v3
Память: SuperTalent 32 ГБ DDR3 1600 ECC
Примерно каждые 4 дня в логах Ubuntu будет показано следующее:
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]: Error 0, type: corrected
{1}[Hardware Error]: fru_text: CorrectedErr
{1}[Hardware Error]: section_type: memory error
[Firmware Warn]: error section length is too small
Сразу после этого сервер перезагружается в режиме "выключения питания".
Когда я смотрю в журнале событий BIOS, я вижу это:
DATE TIME ERROR CODE SEVERITY
06/13/15 13:13:38 Smbios 0x02 P1-DIMMB2
И описание ошибки:
Single Bit ECC Memory Error
ipmitool в Ubuntu показывает это:
ipmitool sel elist
...
...
1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8
Несколько вопросов:
Если память ECC является самокорректирующейся, почему машина перезагружается сама?
Возможно, мне не хватает какой-то настройки в BIOS, которая не дает самой коробке перезагрузиться?
Это, очевидно, проблема с картой памяти, или это может быть проблема слота или проблемы с процессором?
Как остановить сервер от перезагрузки?
Спасибо за любой совет.
3 ответа
Система не должна перезагружаться при исправляемой ошибке памяти. Видите ли вы дополнительную информацию / шаблон через ipmitool sel elist
? Сторожевой таймер BMC может перезагрузить систему, проверить, включена ли она через ipmitool mc watchdog get
, Поскольку у вас уже есть информация о местонахождении неисправного модуля памяти, замените его, и, если проблема снова возникнет, возможно, неисправен слот памяти.
X10SLM-F используемой ОЗУ нет в списке протестированных модулей ОЗУ - если у вас есть такая возможность, замените все панели памяти в "проблемной" системе на эквивалентные, протестированные Supermicro. Также проверьте список поддерживаемых ОС для вашей версии Ubuntu.
Относительно настроек CMOS, вы можете использовать Supermicro SUM
при условии, что у вас установлены ключи SUM, чтобы сбросить настройки BIOS со всех систем, тогда vimdiff
чтобы увидеть, есть ли какой-либо параметр CMOS, отличающийся для систем, которые регулярно перезагружаются, по сравнению с системами, которые этого не делают.
sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf
Я видел ту же проблему с этой платой, версия 1.02. Я думаю, что это имеет конкретную проблему. Я покупаю много досок SM, и они обычно довольно хороши. Я думаю, что есть проблема с этой платой, если все DIMMS заполнены. Я использую Windows, и я получаю синий экран, например.
Попробуйте использовать только 16 ГБ (только 2 слота), и я уверен, что проблема исчезнет. Я знаю, что это не решение, но поможет диагностировать странное поведение. Я даже отправил доску обратно в СМ, и они сказали, что все в порядке, может быть, они не тестировали с 4 модулями DIMM.
Это аппаратное обеспечение Supermicro, поэтому оно недорогое и не нуждается в полировке и интеграции Dell, HP или IBM...
ECC RAM исправляет ошибки, но, вероятно, превышен порог. Вероятно, данный модуль DIMM не работает, и вы должны заменить его.
Вы можете попытаться идентифицировать модуль по слоту и заменить его. Так как это происходит с частотой, будет легко определить проблему.
Кроме того, посмотрите на соответствующие вопросы справа от этого вопроса.