Что проверить после сбоя сервера linux?

Мой Linux-сервер (Debian 5) остановился, и его пришлось перезагрузить.

Посоветуйте, пожалуйста, что проверить, чтобы узнать, что случилось. Обычные подозреваемые любят /var/log/messages, syslog, а также kern.log, Не могли бы вы дать мне только подсказку, что средняя загрузка взлетела до 100 до отказа? Не знаю, где искать дальше.

1 ответ

Решение

Вам нужно предоставить больше информации о конфигурации вашего сервера и опубликовать эти журналы. Откуда вы знаете, что средняя нагрузка стала высокой?

Симптом "средняя нагрузка взлетает до более чем 100 до отказа" может иметь много причин, но встречаются часто.

Во-первых, какова средняя нагрузка?

Я рекомендую просмотреть этот пост, чтобы получить больше информации по этому вопросу: https://superuser.com/questions/23498/what-does-load-average-mean-in-unix-linux

Средняя загрузка является показателем того, сколько процессов в настоящее время находятся в состоянии "ожидания". Очень высокая средняя загрузка указывает на исчерпание ресурсов, и частой причиной этого исчерпания ресурсов является длительное (или бесконечное) время ожидания для завершения операций ввода-вывода.

Что может вызвать это?

  • Ожидание ввода-вывода может происходить из-за сбоя монтирования NFS или сбоя жесткого диска. Возможно, вы стали жертвой нападения.
  • Такие атаки, как Slowloris, обычно исчерпывают пул дескрипторов файлов и могут повесить операции ввода-вывода на сервере.
  • Обратите внимание на вилочные бомбы тоже. Если вы пострадали от бомбы-вилки и что ваша память исчерпана, вы можете увидеть следы "OOM Killer", работника ядра, который жертвует процессами, чтобы освободить память для системы, когда все остальное не удалось. В некоторых случаях OOM Killer может перезагрузить систему.

Где искать?

Это действительно зависит от конфигурации вашей системы и среды. Вы не предоставили достаточно деталей в своем вопросе, чтобы ответить на этот конкретный вопрос. Вот несколько идей:

  • Сначала проверьте все ваши жесткие диски. Запустите полные тесты SMART на них.
  • Если у вас есть аппаратный RAID, проверьте журнал вашего RAID-контроллера.
  • Если вы размещаете веб-службы, проверьте историю использования полосы пропускания и количество запросов.
  • Если у вас есть удаленные сетевые подключения (sshfs, NFS), проверьте их надежность
  • Если вы размещаете оболочки пользователя на своем сервере, проверьте их.bash_history (это может быть подделано.)
  • Если этот сервер является виртуальной машиной, проблема может быть связана не с вашим сервером, а с вашим поставщиком виртуальных услуг.
Другие вопросы по тегам