У вас есть творческое использование для nagios?
Я ищу вдохновение для нестандартного использования систем мониторинга, таких как nagios, который обычно используется для проверки, отвечает ли HTTP и т. Д. Мне любопытно, как люди взяли простую инфраструктуру nagios и работают с ней неожиданным образом, поэтому я могу украсть заимствовать их.
13 ответов
Раньше я хранил копию списка своих друзей в Facebook и подписчиков в Твиттере и отправлял оповещения Nagios, если меня не добавили в друзья.
Я использую nagios для мониторинга высокопроизводительного вычислительного кластера Linux из 1100 узлов. Nagios используется для проверки процесса sshd, состояния SMART на жестком диске, состояния сети Infiniband, общей файловой системы и использования диска. Если какой-либо из этих тестов не пройден, узел автоматически удаляется из рабочего пула планировщика заданий, чтобы его можно было обслуживать. Пока что это сработало довольно хорошо. До того, как Nagios был внедрен в кластер, у нас было много жалоб на то, что программы не запустятся или они сразу же вылетят. После того, как это было реализовано, мы практически не жалуемся.
Я также использую Nagios для мониторинга некоторых экземпляров Xen dom-U. В случае сбоя виртуальной машины dom-U Nagios автоматически перезагрузит виртуальную машину.
Не мое, но это самое творческое использование нагио, о котором я когда-либо слышал. Снимаю шляпу перед этим парнем!
Что именно ты имеешь ввиду? Я написал несколько скриптов, которые отслеживают разные вещи, кроме HTTP. Я даже создал своего рода монитор содержимого URL (очень простой), который просто проверяет определенный фрагмент текста, а затем, если он сообщает менее 1 (0) экземпляров текста, он сообщает как "вниз", и если больше 1, он сообщает как вверх.
Написание сценариев nagios может быть выполнено практически на любом языке.
Помимо всех обычных и скучных вещей, у меня есть монитор, чтобы проверить, является ли это день SysAdm, который отправляет и оповещает всех моих пользователей.
У меня также есть планы по внедрению звукового оповещения на фестивале для действительно опасных сбоев, и я планирую следить за присутствием начальника в штаб-квартире. Но они не любят платить мне за шалости
Я собираю данные о производительности в rrd. Поэтому я сделал несколько проверок для чтения нескольких точек данных из последних проверок и поиска изменений в тенденциях - эти сценарии могут быть полезны. Это в основном автоматический способ чтения графиков.
Возможно, еще одна вещь, в которой люди могут быть заинтересованы:
Я делаю резервные копии всей инфраструктуры здесь. После завершения резервного копирования Dirvish я проверяю результаты резервного копирования с помощью небольшого сценария и отправляю результаты с компьютера резервного копирования на компьютер nagios.
На сервере nagios определена пассивная проверка для этого. Возможно, самое интересное здесь: я определил freshness_threshold
с 93600 (= 26ч) и check_command
с check_dummy_args!2!'Last backup cycle too long ago'
(и конечно check_freshness
с 1). Таким образом, я получаю автоматическое уведомление, если резервное копирование занимает слишком много времени или не выполняется без опроса.
Я разместил пару идей в своем блоге:
Чтобы набрать обороты, один пример, о котором я слышал, - это парень, который настроил проверки nagios для мониторинга своего форума на предмет нездоровой активности, такой как большое количество не отвечающих тем и среднее время между сообщениями.
У нас были и Nagios, и Solarwinds в качестве наших основных систем мониторинга, когда я был в NOC. Solarwinds отлично подходил для мониторинга систем Windows, но он был довольно нестабильным, поэтому мы провели большой мониторинг между двумя системами, чтобы заставить их контролировать друг друга. Множество сценариев Python, выполняющих SQL-запросы к базе данных Solarwinds, чтобы убедиться, что она не содержит устаревших данных.
Вы также можете использовать "скрипт проверки" Nagios для запуска обновления программного обеспечения на компьютере, чтобы убедиться, что мы используем текущую версию того, что вы хотите, через равные промежутки времени.
На наших NFS-серверах не было определенного набора монтирований, который был бы постоянно "правильным", поэтому сценарии проверки файлового сервера были настроены так, чтобы всегда выдавать предупреждение при каждом изменении списка экспортируемых файловых систем. Таким образом, парни, работающие на этих машинах, всегда получают уведомление, когда что-то добавляется или удаляется. Если бы они работали на машине в то время, они бы проигнорировали предупреждение. Если бы они не были, они бы это исправить. Концепция "оповещение о разнице" вместо понятия "оповещение о состоянии" помогла уменьшить некоторые накладные расходы на связь для такого рода вещей.
У нас были 24-часовые обезьяны NOC, чтобы посмотреть все, поэтому у нас также было периодическое сообщение "электронная почта работает", которое они получали в соответствии с расписанием, и они вручную паниковали, если ни один из автоматизированного мониторинга не заметил, что электронная почта была сломана. Подобные вещи легко настроить как "сценарий проверки", даже если возвращаемое значение OK из сценария не говорит вам наверняка, что все в порядке. Если у вас нет запасных тел для проверки этого вручную, у вас также может быть сценарий проверки "отправка электронной почты" и сценарий проверки "проверка электронной почты", которые работают в унисон, причем сценарий проверки электронной почты оповещает о высокой задержке доставки. Это не такая полная гарантия того, что система работает непрерывно, как если бы кто-то действительно читал ее в своих Blackberry и Outlook, но она покрывает большинство возможных проблем.
Многие вещи из Nagios действительно будут ориентированы на конкретный сайт, "видя зуд, чесай зуд". Вы просто должны быть практичным мечтателем.
Здесь у меня есть SMS-шлюз с использованием некоторых USB-модемов. Конечно, я слежу за модемами и самим шлюзом. Поскольку все наши используемые SIM-карты имеют контингент 1000 бесплатных SMS-сообщений в месяц, я отслеживаю количество уже отправленных SMS-сообщений через обычный веб-интерфейс оператора мобильной сети (небольшой сценарий perl с WWW::Mechanize). Если на одной SIM-карте больше нет бесплатных SMS для отправки, она отключается nagios - если веб-интерфейс оператора мобильной сети сообщает nagios, снова отправляется 1000 бесплатных SMS, модем снова активируется. В сочетании с nagios-grapher у меня тоже хорошая статистика...
У меня есть множество только пассивных сервисов для проверки статуса файла и один активный сервис для генерации отчета о статусе файла. Активная служба выполняет сценарий, который запускает отчет и выгружает результаты в командный файл, таким образом я получаю уведомление, если (1) отчет не был выполнен и (2) я получаю разбитый результат всех файлов, которые он выполнил запросы против. Проверка выполняется каждые 5 минут, а статусы файлов обновляются каждые 5 минут. Это работает очень, очень хорошо.
Я использую эту же концепцию при определении файлов для извлечения из внешних источников (http, ftp и т. Д.). Вставьте скрипт с необходимым интервалом повторения в NAGIOS, который пересекает каталоги на удаленных ресурсах и ищет файлы, которые нам нужно извлечь. Если он ничего не находит, предупредите, если он что-то найдет, выйдите из OK и сделайте всю работу, чтобы поместить запрос на включение в нашу очередь.
И помимо всего этого, у меня также есть множество проверок "сколько лет этому файлу" или "сколько лет этому каталогу", которые тупы, и я их очень ненавижу.
Я мог бы попытаться написать проверку nagios, чтобы очистить данные об инженерном ядре армии для местной плотины и предупредить об этом. Особенно важно сейчас, когда я живу недалеко от поймы.