Ошибка синхронизации процессора / узла HT Link SuperMicro H8QG6
У нас есть пара серверов SuperMicro H8QG6 (с 512 ГБ ОЗУ и процессором AMD Opteron (48 ядер)), на которых все они работают под управлением Centos 7.5.1804 (ядро 3.10.0-862.14.4.el7.x86_64), и у нас есть только Postgres ( 9.4.1) установлено там с большим количеством транзакций Postgres (скажем, 10M+ запрос в день)
После того, как мы начали обновлять наши системы из-за Spectre и Meltdown (около 3 месяцев назад), мы получаем некоторые случайные перезагрузки сервера, и сервер зависает при загрузке из-за ошибки CPU Node HT Link Sync (ниже трех снимков экрана).
Снимок экрана 0 - Снимок экрана 1 - Снимок экрана 2
После этого мы обновили прошивку BIOS сервера до последней версии (около месяца назад), однако это не решило проблему.
Мы также пытались копаться в журналах сервера, но это не помогло.
У нас есть другой сервер с такими же характеристиками, но без Postgres, и они вообще не сталкиваются с этой проблемой!
Мы копаемся, чтобы выяснить, что могло вызвать это (скорее всего, это может быть связано с обновлением microcode_ctl или с ядром и postgres из-за изменений в Kernel for Spectre), однако будем благодарны за любые советы или если кто-то испытал то же самое.
Спасибо.