В Солярисе, как контролировать и автоматически реагировать на критические события
У меня есть сайт, который случайно выходит из строя. Бежит в открытом солярисе на радостном.
У меня есть служба мониторинга, которая предупреждает меня, когда сайт не работает, но я хочу, чтобы появился инструмент "инсайдеров", который сообщал бы мне, почему это произошло.
Это потому, что процессор слишком высок? Не память? Какой процесс потерпит неудачу? Возможно ли иметь обратный след этого?
Все работает на Solaris Service Management Facility. Веб-сервер Cherokee, база данных MySQL и язык Python / Django.
Я хочу, чтобы самая простая настройка отслеживала это и автоответчик, т. Е. Перезапускала веб-сервер или процесс django в случае сбоя.
Я предпочитаю инструмент с низкими накладными расходами. Мне не нужен причудливый мониторинг, который есть у некоторых инструментов, никаких графиков или SMS-уведомлений. Знайте только, что не получилось, перезапустите его, если это возможно (возможно, до n раз), и запишите где-нибудь журнал, когда я проверю это.
3 ответа
Вы также можете выбрать дополнительный мониторинг с помощью Nodefly, NewRelic, Pagerduty, Pingdom или любого из nagios, Munin или zabbix.
У вас есть много вариантов выбора.
Все ваши потребности могут быть удовлетворены журналами в /var/svc/log.
Это журналы всего, что SMF делает с вашей системой, за кулисами.
Извлечение "интересных" данных оставлено читателю в качестве упражнения.
Посмотри в коллекцию. Я получил его для компиляции на Illumos/ Smartos. Также:
https://github.com/gflarity/nervous и https://github.com/gflarity/response