Как устранить неполадки при неожиданном завершении работы Linux
У меня есть два сервера RHEL6.3, которые просто выключаются в одно и то же время (с интервалом 25 секунд) без видимой причины. Они находятся под напряжением, наряду с рядом других серверов, которые не отключились, поэтому это не может быть питание. Комната должным образом охлаждена, и они оба отключаются в одно и то же время из-за температуры, кажется маловероятным.
На момент выключения оба сервера имеют следующие параметры в / var / log / secure. Я не знаю, что это значит, но нашел это странным.
Apr 10:42:52 localhost polkitd(authority=local): Unregistered Authentication Agent for session /org/freedesktop/ConsoleKit/Session1 (system bus name :1.25, object path /org/gnome/PolicyKit1/AuthenticationAgent, locale en_US.UTF-8) (disconnected from bus)
В / var / log / messages обе системы, как кажется, получили запрос на чистое завершение работы
Apr 10 10:42:52 localhost init: tty (/dev/tty2) main process (6183) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty3) main process (6186) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty4) main process (6188) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty5) main process (6190) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty6) main process (6192) killed by TERM signal
Поэтому я проверил последний, чтобы увидеть, если кто-то вошел в систему, чтобы сделать это, и у обоих есть эта запись, никто не входил в течение предыдущих дней.
reboot system boot 2.6.32-279.el6.x Thu Apr 10 10:42 - 10:42 (00:00)
Так что, если никто не вошел в систему, чтобы выключить его, и у меня было два парня, которые были там свидетелями выключения серверов, и они подтвердили, что никто не коснулся ни одного из серверов, что еще могло вызвать это отключение? Где еще мне искать улики?
1 ответ
Предполагая, что это ядро упс (ядро паники), вам нужно захватить вывод с консоли сервера, чтобы понять, что именно произошло. Вы можете сделать это используя:
- Физический доступ к консоли, как правило, вам нужно сделать снимок экрана, чтобы захватить панику (наименее надежный способ захвата)
- Удаленный IP KVM (сделайте скриншот)
- Последовательная консоль (протоколирование вывода консоли через последовательный кабель от проблемного компьютера к другому) http://www.cyberciti.biz/faq/centos-rhel-6-install-serial-console/
- Сетевая консоль (вывод консоли на другой сервер в вашей сети) https://fedoraproject.org/wiki/Netconsole
Что нужно проверить на всех серверах, чтобы быть успешным:
- Проверьте параметр kernel.panic в /etc/sysrq.conf, который контролирует время ожидания, после которого Linux перезагрузится после паники ядра
- Проверьте уровень журнала ядра через kernel.printk в /etc/sysrq.conf, рекомендуется с дополнительной отладкой:
echo 'kernel.printk = 8 4 1 7' >> /etc/sysctl.conf