Как расследовать перебои в работе сервера?

Я знаю, вопрос довольно общий, но я не могу быть более конкретным, потому что просто не знаю, что происходит:

Теперь уже дважды (один раз на нашем работающем сервере и один раз на нашем тестовом сервере) ответ становится совершенно не отвечающим. Я не могу зайти на наш сайт в любом браузере и не могу подключиться через SSH, все, что я получаю, это Connection closed by remote host, Я должен сделать полную перезагрузку, используя веб-инструмент Гетцнера для управления серверами. Это единственный способ сделать сервер снова доступным. Мягкий сброс (по словам Хетцнера - это эквивалент отправки ctrl+alt+del) не имеет никакого эффекта. После полной перезагрузки я снова могу войти по SSH, и веб-сайт снова работает.

Рассматриваемый сервер - это EX41-SSD от hetzner с Ubuntu 14.04.5. Наш веб-сайт работает с использованием стека LAMP, то есть Apache, MySQL и PHP.

Дело в том, что я понятия не имею, с чего начать поиск источника этой проблемы. Я веб-разработчик, который ранее занимался администрированием серверов, но не более, чем настраивал машины, укреплял их, настраивал марионеток. Никогда не приходилось расследовать перебои в работе сервера и тому подобное.

Единственное, что я нашел, это 3-часовой разрыв /var/log/syslog, Есть некоторый вывод из нашего cron, затем много "^@^@^", а затем вывод, вызванный полным сбросом или, скорее, процессом загрузки, следующим за ним.

Любая идея, где еще я мог бы посмотреть? Или что я могу сделать, чтобы облегчить расследование в будущем? Существуют ли какие-либо инструменты мониторинга, которые я должен установить / настроить?

В любом случае, спасибо!

1 ответ

Вы должны попробовать последнюю команду

# last
Другие вопросы по тегам