Какой инструмент вы используете для мониторинга ваших серверов?

Более полный список инструментов мониторинга и их функций можно найти на этой странице Википедии.

Как говорится в вопросе, какие инструменты наиболее часто используются для этой задачи и каковы их сильные и слабые стороны?

73 ответа

Мы написали наше собственное программное обеспечение для мониторинга. Наш код не так сложен, как коммерческий пакет, но нам не нужно было много функциональности. Нам было проще написать свой собственный, чем исследовать другие пакеты и научиться их использовать. Код делает то, что мы хотим, и его легко расширять.

Я работал с Pandora FMS, и мне это нравится в основном потому, что он очень гибкий и простой в настройке для среднего сисадмина. Также мне нравится веб-интерфейс со всеми отчетами и обширной документацией. И не очень полезен для одного центра обработки данных, но очень полезен интерфейс геолокации, который показывает положение контролируемых агентов.

Я также попробовал Nagios, и мне нравятся все плагины, которые у него есть, и это хорошо известно среди системных администраторов.

Примечание: я был одним из разработчиков Pandora FMS в течение некоторого времени.

Для серверов HP вы не можете превзойти их Systems Insight Manager (SIM), множество прекрасных низкоуровневых счетчиков и оповещений и т. Д., А также неплохой графический интерфейс, и ссылка на ваш контракт на поддержку стоит ваших усилий.

Я использую Polymon и люблю это.

http://www.codeplex.com/polymon

Он отлично подходит для мониторинга всего, что может быть передано через TCP-порт, SNMP, Powershell, WMI, SQL, HTTP, Perfmon или Ping.

Я ничего не слежу за *nix, поэтому я не могу говорить об этом. Но для мира Windows он очень прост в настройке, чрезвычайно интуитивно понятен и чрезвычайно гибок, имеет очень хороший встроенный дисплей панели управления, смс или уведомление по электронной почте и т. Д.

Нам нужно что-то настраиваемое, так как нам нужно отслеживать некоторые системы, которые не все время находятся в сети, но могут отправлять почту или набирать номер.

Мы попробовали nagios (лабиринт сценариев), AppManager (хороший, но неадаптируемый), Zenoss (хороший, но когда вы упоминаете Oracle, цена получает огромные множители) и приземлились на Zabbix, который имеет открытый протокол, открытую структуру базы данных, черт возьми, я могу написать плагин на каждом уровне в час. Он хорошо разделен (сервер, клиент, база данных, ...). И это веб-интерфейс довольно приятный и настраиваемый.

YMMV, для нас важен мониторинг "автономных" систем, и он обычно не покрывается таким программным обеспечением.

Я использую комбинацию Nagios, Cacti, пользовательских сценариев и одного из моих собственных проектов - System Health Monitor. Мне нравится иметь внешний сервисный мониторинг, а также графики системных ресурсов, чтобы вы могли выполнить посмертный анализ системных проблем или быстро проверить графики, чтобы увидеть, выглядят ли вещи "нормально" по сравнению с их историческими значениями.

Я использую http://www.10-strike.com/network-monitor/

Он работает как сервис 24/7 и контролирует все устройства в сети, периодически опрашивая каждое устройство в локальной сети. Также Ican настроить реакцию программы на определенные события, например, включение или выключение устройства или услуги. Программа может отображать сообщение, воспроизводить звук, запускать внешние программы, записывать запись в журнал, отправлять SMS, перезапускать / выключать службу или компьютер и т. Д.

Мы используем Orca для мониторинга наших систем. Это не очень красиво, но дает массу деталей низкого уровня, которые другие системы мониторинга не используют.

Очень ОЧЕНЬ отличный мультитейл, чтобы следить за лог-файлами. Нагиос, чтобы следить за временем работы сервиса. rrdtool, чтобы следить за пропускной способностью.

Я заметил, что никто еще не упомянул HP SiteScope

Я использую NetGain Enterprise Manager от NetGain Systems. Это займет всего несколько минут, чтобы установить и запустить его и контролировать. Лучше всего, это бесплатно. проверить http://www.netgain-systems.com/

Мы используем директора IBM, Dells Open, управляющего и "что до золота"

Solarwinds Ipmonitor в сочетании с менеджером Dell Open и MS Scom.

Для Windows: Admin Arsenal (но это тот факт, что у нас есть продукт)

Для Unix - IBM Tivoli

Также взгляните на Серебряного стража. Он кроссплатформенный, может функционировать в качестве сервера системного журнала, он предоставит вам схему базы данных для создания собственных отчетов, если вам это понадобится, и вы можете импортировать ваши собственные изображения в виде "карт" для выдачи визуальных предупреждений.

MSP Center (бывший OpManager) действительно разочаровывает, и я не могу его рекомендовать. Интерфейс полностью основан на сети, что означает отсутствие обратной связи и произвольно ограниченный набор вариантов в любое время, когда вы хотите что-то сделать. Их веб-сайт, кажется, полон советов и документации, но он немного похож на Outlook - он обещает массу возможностей, но ограничен воображением некоторых разработчиков.

Если вы ищете решение с нулевой конфигурацией для вашей службы поддержки, ну, может быть, но это не какой-то мощный инструмент. Если у вас есть время настроить мониторинг в соответствии с вашими потребностями, то есть другие решения, которые больше вознаградят ваши усилия.

Попробуйте Ground Ground. Он использует Nagios. Таким образом, он имеет все функции nagios, и вы можете редактировать мониторинг графически через веб-интерфейс, что невозможно только для nagios. https://kb.groundworkopensource.com/display/SUPPORT/Home

Я использую nagios и hobbit (bigbrother с открытым исходным кодом) независимо друг от друга и обнаружил как положительные, так и отрицательные качества.

Nagios:
pro: имеет приятный субминутный планировщик для запуска задач с обычными интервалами и имеет встроенный интерпретатор perl для загрузки.
con: config настаивает на наличии "сервера" для каждого теста, когда иногда вам просто нужно запустить тест, основанный на "функции" приложения, но не обязательно изолированный для одного хоста. Вернитесь к мета-конфигурации, которая генерирует фактическую конфигурацию nagios, чтобы преодолеть это.

хоббит:
pro: скомпилированный сервер с открытым исходным кодом вместо массивных сценариев, используемых оригинальной простой интеграцией старшего брата с командой bb client 'dboard' для опроса данных.
con: также застрял в "серверно-ориентированном" менталитете, который подходит большинству людей, но не мне.

Для статуса серверов и служб (независимо от того, работают они или нет, а также для отправки предупреждений, если они не работают) и для вопросов "да / нет" ("было ли выполнено резервное копирование за последние 24 часа?") Мы используем nagios. Это трудно настроить, но это очень настраивается. Пользовательские сценарии можно запускать на удаленных компьютерах. Оповещения могут отправлять электронные письма, отправлять текстовые сообщения или даже запускать пользовательские сценарии.

Для работоспособности серверов мы используем munin - он предоставляет хорошие графики использования памяти, использования процессора, использования сети и т. Д. Довольно легко настроить, по крайней мере, на Linux (я не пробовал с Windows).

Nagios с фундаментом на вершине.

Я не уверен, помогает ли основа или мешает, но nagios определенно хорош.

Мы используем WhatsUp от ipswitch, он очень прост для настройки небольших сетей, он может автоматически обнаруживать сети при сканировании портов, он может использовать Windows и учетные данные SNMP.

Для статических мониторов, таких как cpu, mem и disk, нам нужно настроить SNMP. Поддержка WhatsUp SNMP v1, v2, v3.

У WhatsUp есть пассивный монитор через системный журнал (Unix), средство просмотра событий (Windows) и ловушки SNMP.

Он имеет приятный веб-интерфейс ajax с пользовательским и пользовательским рабочими пространствами.

PD извините за мой плохой английский

Я использовал хоббита, старшего брата и нагио, когда работал в более бедных (читай дешевле) организациях. Из трех я предпочитаю хоббита, потому что он простой и пуленепробиваемый. Я всегда чувствовал, что nagios пытается быть версией openview или tivoli с открытым исходным кодом, и, честно говоря, если у меня есть время потратить на настройку фреймворка, такого как openview или tivoli, тогда мониторинг - это, вероятно, вся моя работа, и моя организация, вероятно, может себе позволить купить openview, так зачем использовать nagios?

ServersAlive - это относительно дешевый и простой инструмент для всех видов опросов, включая службы TCP, службы Windows, ваши собственные пользовательские сценарии и т.д. Ответ от разработчика в его списке рассылки является быстрым и личным.

Я использовал его на предыдущей работе для мониторинга услуг, и он был надежным, настраиваемым и дешевым.

Кто-то должен упомянуть Netgong для простого инструмента мониторинга вкл / выкл через интервалы проверки связи.

Я с большим успехом использовал сетевой монитор Activexperts (в основном в сети Windows, но у него было несколько хостов Unix и Linux, принтеры разных марок и т. Д., Которые также отслеживались с его помощью).

Его очень легко установить и изучить, он довольно дешев, потому что вы получаете (500 долларов за лицензию на сайт / предприятие) и поддерживает команды vbscript и удаленную Unix. Если сеть небольшая (максимум несколько сотен узлов), я думаю, что это гораздо более интуитивно понятно, чем System Center Operations Manager, который в большей степени ориентирован только на огромные сети Windows.

Сетевой монитор поставляется с множеством предопределенных сценариев для мониторинга таких вещей, как почтовые серверы, включая различные версии Exchange и все его службы, http-серверы с ожидаемым ответом, журналы событий, sql-запросы и ожидаемые ответы и т. Д.. .. и зависимости легко для настройки ("все это зависит от этого маршрутизатора, поэтому, если он не отвечает на команды ping и snmp, не беспокойтесь нас о том, что за ним не отвечает"). SMS с поддержкой шлюза или локального GSM-модема, и все правила могут, конечно, иметь такие действия, как перезапуск службы, перезапуск сервера или пользовательский сценарий - чтобы исправить проблемы повторного создания для вас (я думаю, это важно, вроде регрессионного тестирования для разработки).

.. . Я также пытался укротить Хоббита и вообще не получал от этого удовольствия (ни вздутого агента Windows) - но он был настроен для мониторинга сервера Windows, и он действительно удручает - скорее всего, больше подходит для Linux или Unix-ориентированная сеть.

В настоящее время используется Groundworks Open Source Community Edition 5.3 - хотя поддержка этой версии в настоящее время упала. Возможно обновление до GWOS 6 или, возможно, переход с корабля на Zabbix или аналогичную систему с открытым исходным кодом. Я склонен отдавать предпочтение тем, которые основаны на Nagios, но я бы не пошел на ванильный Nagios из-за кошмара управления всеми этими взаимозависимыми конфигурационными файлами.

Плагины WMI мониторинга от Groundworks для NRPE работают довольно хорошо. Nagios запускает проверку службы WMI в окне Windows с помощью NRPE, который затем запрашивает WMI других окон Windows. Это позволяет обойти требование наличия агентов NRPE на ваших окнах Windows, а также кошмар попыток заставить Nagios работать на * Nix для аутентификации в Windows.

Еще один приятный вариант - настроить SNMP на ваших окнах как часть вашей базовой сборки. Есть несколько вариантов выставления проверок WMI через SNMP ( SNMPTools) (хотя вам нужно установить это на каждом Windows-боксе, чтобы он не был безагентным).

Существует ряд инструментов Windows, которые могут отслеживать журналы Windows и отправлять ловушку SNMP при возникновении определенных событий.

WhatsUp Gold от Ipswitch

Nagios и HPOpenview - это те два, с которыми я знаком и у меня есть опыт. Оба являются хорошим выбором, хотя для последнего я повторю другие постеры, что для этого нужен кто-то, кто знает, как это сделать правильно. И снова, единственное место, где я видел его, было когда я был с HP, чтобы это могло помочь моему восприятию.

Мы используем IP Check, который был переименован в PRTG, он позволяет использовать широкий спектр датчиков, которые могут контролировать все виды различной активности.

Мы используем Платформы Уровня для этой задачи. Предоставляет массу полезной информации без перегрузки системных администраторов и позволяет чрезвычайно легко обрабатывать все оборудование в нашей серверной комнате (а также многих наших клиентов).

Другие вопросы по тегам