Перегрузка ядра в нескольких местах превышает 100% на сервере Centos7 Supermicro

Question

Перегрузка ядра в нескольких местах превышает 100% на сервере Centos7 Supermicro

Я использую Centos 7 (3.10.0-514.26.2.el7.x86_64) на плате supermicro H8QG6 с 4 процессорами AMD 6276 (16 ядер), всего 64 ядра. Я использую его для научных вычислений, и обычно все идет гладко, как на первом изображении htop. Затем, внезапно, htop начинает сообщать об использовании одного процессора выше 1000%, как на этом втором изображении, и компьютер почти не отвечает. Между прочим, почти каждый процесс перегружает процессор: даже сам htop сообщает о загрузке 1600%!!! В то же время эти ошибки появляются в journalctl:perf: interrupt took too long (3973 > 3883), lowering kernel.perf_event_max_sample_rate to 50000 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2d kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 37, got netfn 7 cmd 52 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 7 cmd 37но я не могу определить, являются ли они симптомом или причиной странного поведения. Кто-нибудь имеет представление о том, что происходит? Большое спасибо!

Обновление: я установил ipmitool и запустил демон ipmievd. Как только проблема начинается, в journalctl появляется следующее:

ipmievd[7567]: Memory sensor - Correctable ECC (@DIMMD1(CPU3))

Возможно ли, что проблема связана с неисправным модулем памяти?

2

centos7 ipmi supermicro htop parallel-computing

Источник

ehyG 26 сен '17 в 20:20

1 ответ

Решение

Другие вопросы по тегам centos7 ipmi supermicro htop parallel-computing

ehyG 29 сен '17 в 22:19 2017-09-29 22:19 · Accepted Answer · 2017-09-29 22:19

Виновником действительно был неисправный оперативный модуль. Аномальный всплеск использования процессора появился, когда в логах начала появляться ошибка оперативной памяти. модуль был идентифицирован и заменен, и проблема теперь решена.