Перегрузка ядра в нескольких местах превышает 100% на сервере Centos7 Supermicro
Я использую Centos 7 (3.10.0-514.26.2.el7.x86_64) на плате supermicro H8QG6 с 4 процессорами AMD 6276 (16 ядер), всего 64 ядра. Я использую его для научных вычислений, и обычно все идет гладко, как на первом изображении htop. Затем, внезапно, htop начинает сообщать об использовании одного процессора выше 1000%, как на этом втором изображении, и компьютер почти не отвечает. Между прочим, почти каждый процесс перегружает процессор: даже сам htop сообщает о загрузке 1600%!!! В то же время эти ошибки появляются в journalctl:
perf: interrupt took too long (3973 > 3883), lowering kernel.perf_event_max_sample_rate to 50000
kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2d
kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2
kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 37, got netfn 7 cmd 52
kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 7 cmd 37
но я не могу определить, являются ли они симптомом или причиной странного поведения. Кто-нибудь имеет представление о том, что происходит? Большое спасибо!
Обновление: я установил ipmitool и запустил демон ipmievd. Как только проблема начинается, в journalctl появляется следующее:
ipmievd[7567]: Memory sensor - Correctable ECC (@DIMMD1(CPU3))
Возможно ли, что проблема связана с неисправным модулем памяти?
1 ответ
Виновником действительно был неисправный оперативный модуль. Аномальный всплеск использования процессора появился, когда в логах начала появляться ошибка оперативной памяти. модуль был идентифицирован и заменен, и проблема теперь решена.