Как устранить неполадки при неожиданном завершении работы Linux

У меня есть два сервера RHEL6.3, которые просто выключаются в одно и то же время (с интервалом 25 секунд) без видимой причины. Они находятся под напряжением, наряду с рядом других серверов, которые не отключились, поэтому это не может быть питание. Комната должным образом охлаждена, и они оба отключаются в одно и то же время из-за температуры, кажется маловероятным.

На момент выключения оба сервера имеют следующие параметры в / var / log / secure. Я не знаю, что это значит, но нашел это странным.

Apr 10:42:52 localhost polkitd(authority=local): Unregistered Authentication Agent for session /org/freedesktop/ConsoleKit/Session1 (system bus name :1.25, object path /org/gnome/PolicyKit1/AuthenticationAgent, locale en_US.UTF-8) (disconnected from bus)

В / var / log / messages обе системы, как кажется, получили запрос на чистое завершение работы

Apr 10 10:42:52 localhost init: tty (/dev/tty2) main process (6183) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty3) main process (6186) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty4) main process (6188) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty5) main process (6190) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty6) main process (6192) killed by TERM signal

Поэтому я проверил последний, чтобы увидеть, если кто-то вошел в систему, чтобы сделать это, и у обоих есть эта запись, никто не входил в течение предыдущих дней.

reboot     system boot   2.6.32-279.el6.x Thu Apr 10 10:42 - 10:42  (00:00)

Так что, если никто не вошел в систему, чтобы выключить его, и у меня было два парня, которые были там свидетелями выключения серверов, и они подтвердили, что никто не коснулся ни одного из серверов, что еще могло вызвать это отключение? Где еще мне искать улики?

1 ответ

Решение

Предполагая, что это ядро ​​упс (ядро паники), вам нужно захватить вывод с консоли сервера, чтобы понять, что именно произошло. Вы можете сделать это используя:

  • Физический доступ к консоли, как правило, вам нужно сделать снимок экрана, чтобы захватить панику (наименее надежный способ захвата)
  • Удаленный IP KVM (сделайте скриншот)
  • Последовательная консоль (протоколирование вывода консоли через последовательный кабель от проблемного компьютера к другому) http://www.cyberciti.biz/faq/centos-rhel-6-install-serial-console/
  • Сетевая консоль (вывод консоли на другой сервер в вашей сети) https://fedoraproject.org/wiki/Netconsole

Что нужно проверить на всех серверах, чтобы быть успешным:

  • Проверьте параметр kernel.panic в /etc/sysrq.conf, который контролирует время ожидания, после которого Linux перезагрузится после паники ядра
  • Проверьте уровень журнала ядра через kernel.printk в /etc/sysrq.conf, рекомендуется с дополнительной отладкой: echo 'kernel.printk = 8 4 1 7' >> /etc/sysctl.conf
Другие вопросы по тегам