Случайное зависание сервера и загрузка только с холодной загрузкой
Я столкнулся с чрезвычайно странной проблемой, связанной с одним сервером: он случайным образом зависает/зависает без вывода данных на сервер, не отвечает на короткие клавиши и требует холодной загрузки, при загрузке с холодной загрузкой вообще нет ошибок на экране загрузки.
Он вообще не зависает при большой нагрузке: около 9-20% сбоев процессора, средняя нагрузка около 2-5(12-ядерный процессор) и 128 ГБ оперативной памяти.
Мы попробовали проверить журналы, но ничего похожего на панику ядра или что-то, что связано с самой проблемой, не отображается.
Во всех зависаниях после холодной загрузки, когда мы проверяем журнал, мы видим обычный OOM Reaper, убивающий php-процессы (пользователи достигают пределов), но ничего слишком оскорбительного, но всегда в OOM. Иногда, когда сервер зависает, в журнале вы видите текущее время , а иногда, как показано ниже, после текущего момента сбоя он показывает несколько строк из более старой даты и зависает.
Ничто в журналах не может определить, что связано с программным обеспечением или с большой нагрузкой, просто нормальная работа, это обновленная машина со старой, которая работала стабильно в течение многих лет. Зависания происходят случайным образом, могут произойти после недели работы сервера, двух дней или три недели и т. д.
Также мы попытались извлечь дамп vmcore при зависании сервера, но там все равно ничего не ловится.
Это просто зависание без вывода на экран, но сервер все еще работает, но не доступен для доступа, не могу получить доступ к ssh, а kvm, как я уже сказал, вообще не показывает никакого вывода на экране.
Может ли это быть связано с неисправным оборудованием? Как моя подвеска связана с неисправной оперативной памятью?
Я очень растерян в этой проблеме. Спасибо.
1 ответ
- Убедитесь, что температура процессора/ОЗУ/ЧИПСЕТА/ДИСКОВ хорошая. Я предполагаю, что вы являетесь пользователем Linux из-за OOM, установите
lm-sensors
и проверьте температуру с помощьюsensors
команда. - Это ваша оперативная память, запустите memtest86, имейте в виду, что полный тест на 128 ГБ может занять неделю.