Наш сервер Red Hat Enterprise 5 заменяет себя до смерти - нужен план для выявления причины

С, казалось бы, случайными интервалами, использование памяти на нашем сервере увеличивается сверх максимально доступного и меняется до тех пор, пока загрузка ЦП также не станет 100%. Затем он начинает убивать процессы, когда у него заканчивается память подкачки, и мы должны перезапустить сервер.

Когда это происходит, наш веб-сайт и внутренние системы перестают отвечать на запросы. Я также не могу подключиться к серверу по SSH, поэтому у меня нет возможности определить процессы, которые его убивают.

У меня нет большого опыта работы с администратором сервера, но я ищу идеи, как обнаружить проблему. Дайте мне знать, какая дополнительная информация вам может понадобиться.

2 ответа

Решение

Может быть бомба-вилка (т.е. процесс, который бесконечно разветвляет детей и, следовательно, истощает ресурсы). Может также быть проблема типа утечки памяти.

Идентификация ключевого процесса (ов) является ключевым здесь. Попробуй это:

При следующем перезапуске сервера оставьте консоль открытой как root, но используйте renice, чтобы установить ее приоритет -20. Как только это будет сделано, запустите (вершина с приоритетом -20) и посмотрите, что является причиной проблемы.

Эта команда должна сделать это:

sudo bash
renice -n -20 -u root
top

Когда вещи начинают выглядеть напряженно, прибегайте к команде killall или убивайте родителя, а затем зомби.

На -20 вы должны иметь возможность поддерживать активное соединение через ssh и при этом выполнять свою работу, с тем же приоритетом, что и ядро.

Не забудьте заглянуть в журналы (веб-сервер и т. Д. В /var/log), так как они могут быть довольно показательными.

Если вы обнаружили проблему, сообщите нам, что это такое, и если вам нужна дополнительная помощь и содействие.

Удачи.

См. Справочную страницу renice и верхнюю справочную страницу.

Установите (и внимательно прочитайте документацию!) sysstat, настроить его и проанализировать собранные данные после такого инцидента.

Просмотрите действующие политики безопасности (SELinux active, ulimit для разных пользователей...). Убедитесь, что все обновлено (неисправная программа, безусловно, может вызвать это).

Проверьте любые домашние системы на наличие возможных петель или истощения других ресурсов. Реальные все логи, даже для баз данных и тому подобное.

Другие вопросы по тегам