Какой инструмент вы используете для мониторинга ваших серверов?
Более полный список инструментов мониторинга и их функций можно найти на этой странице Википедии.
Как говорится в вопросе, какие инструменты наиболее часто используются для этой задачи и каковы их сильные и слабые стороны?
73 ответа
Я использовал Nagios в прошлом с успехом. Это очень расширяемый (более 200 надстроек), относительно простой в использовании и много отчетов. Отрицательной будет начальная настройка.
Cacti - очень хороший веб-интерфейс для RRDTool, предоставляющий очень удобные графики и статистику. RRDTool - это часть, которая собирает данные из нескольких систем и отслеживает широкий спектр технических данных.
Мы используем это решение cacti/RRDTool для мониторинга систем Unix и Windows. Мы получаем множество полезных показателей, включая загрузку, использование ЦП / ОЗУ, пространство на жестком диске, количество зарегистрированных пользователей, сетевой трафик, запущенные процессы и т. Д.
Вы найдете больше информации о кактусах на Что такое кактусы? стр.
Лично я люблю Munin, который очень прост в установке и написании плагинов, поскольку у него очень простая архитектура. Существует достаточно много плагинов для всех целей, которые вы можете себе представить, так что вам, вероятно, даже не придется писать плагины в первую очередь.
Он также предоставляет красивые графики и возможность настроить (очень простые) оповещения.
Zabbix. Это с открытым исходным кодом, и достаточно прост в установке и настройке. У нас есть множество пользовательских сценариев мониторинга, которые поступают на zabbix сервер, но он заботится о централизации этих данных, их соответствующем отображении, уведомлениях (электронная почта, IM, SMS, Twitter и т. Д.) И так далее.
Я проводил развертывание Spiceworks в нашей компании, и мы считаем, что это отличный инструмент не только для мониторинга серверов, но и всего остального в сети.
Он выполняет такие функции, как автоматическая инвентаризация и пользовательский мониторинг, чтобы отправлять вам электронные письма при возникновении проблемы (например, в принтере осталось 10% чернил или на жестком диске этого сервера 20%).
Его недостатком, вероятно, будет плотность информации на компьютер, не поймите неправильно, у нее много данных на машину, но для таких вещей, как серверы, где вам может потребоваться много статистики, вам может понадобиться другой инструмент.
РЕДАКТИРОВАТЬ: о, я упоминал, что его бизнес-модель основана на том, что она всегда бесплатна.
Smokeping не только проверяет доступность различных серверов и сервисов, но и отслеживает их задержку, обеспечивая при этом простоту в использовании, красивый внешний вид и быстрое отображение графиков.
Широкий спектр плагинов для измерения задержки доступен из коробки. Если вы знаете какой-нибудь Perl, то легко создать свои собственные для любых экзотических нужд.
Большие установки получат выгоду от Master/Slave System для распределенных измерений.
Настраиваемая система оповещений поможет вам заметить проблемы до того, как они начнут влиять на пользователей или перерастут в серьезные перебои.
Smokeping - это бесплатное программное обеспечение с открытым исходным кодом, написанное на Perl Тоби Отикер, создателем MRTG и RRDtool.
Zenoss Core очень полезен, мы используем его (около года) для облегченного мониторинга серверов, сетевых коммутаторов и ИБП.
Zenoss Core - отмеченный наградами продукт для мониторинга ИТ с открытым исходным кодом, который эффективно управляет конфигурацией, работоспособностью и производительностью сетей, серверов и приложений с помощью единого интегрированного программного пакета.
OpenNMS используется там, где я работаю, чтобы контролировать более тысячи машин Linux. Мы отслеживаем аппаратное обеспечение каждой машины и приложения, работающие на них.
Nagios великолепен, так как он бесплатный и для него есть множество плагинов. Однако пользовательский интерфейс и конфиг очень сложны.
В pro /con есть полная противоположность, которая также хороша - это Microsoft System Center Operations Manager (SCOM), который не бесплатен, имеет меньше плагинов, но установка и настройка великолепны и просты.
Я должен признать, что если бы я был в основном компанией Microsoft, имел очень высокие требования к надежности (то есть не мог позволить себе сломать мониторинг) или должен был подумать о том, чтобы заставить разработчиков работать с ним, тогда SCOM был бы моей рекомендацией над Nagios.
Я использовал:
- Nagios - требует некоторой старой настройки командной строки, не красивой, но прочной и функциональной. Он был заменен:
- Zenoss - требует гораздо меньше усилий для настройки, имеет коммерческий вариант. После запуска все остальное контролируется через браузер. Очень мощный, но требует некоторой работы MIB, если вы используете бесплатную версию.
- Intermapper - коммерческая программа, которую можно потратить, если у вас есть много узлов для мониторинга. Кажется, что написано на Java (к лучшему или к худшему).
- Spiceworks - не пробовал последнюю версию. В старых версиях требовалось чуть больше звука, чтобы заставить его реагировать, но в остальном все работает хорошо. Бесплатная версия поставляется с надписью.
Мы используем AlertFox уже несколько недель и очень рады этому. Он не только проверяет наше время безотказной работы и производительность, но также контролирует корзину покупок, вход пользователя и другие важные части веб-сайта с помощью сценариев транзакций (на основе iMacros).
Для внутреннего контроля (места на диске и т. Д.) Мы используем Nagios.
PRTG Network Monitor - не могу сказать достаточно хороших слов об этом. Потрясающий веб-интерфейс и особенно отлично подходит для мониторинга маршрутизаторов (пропускной способности и т. Д.) И других устройств через SNMP и измерения времени безотказной работы для SLA и т. Д.
www.paessler.com
Как человек Windows, мама. Мы планируем перейти на Systems Center Operations Manager (SCOM), но не потребуется, пока мы не начнем развертывание Windows 2008.
Для мониторинга статистики (использование памяти, загрузка, активность mysql, активность apache и т. Д.) Я использую Munin. Из коробки уже отслеживается множество вещей и строятся графики для разных временных интервалов (последние 24 часа, последние 7 дней, последний месяц, прошлый год). С помощью плагинов можно отслеживать еще больше вещей. Это вывод HTML-страниц с красивыми графиками.
Munin имеет архитектуру master/node: узлы собирают статистику на сервере, а master хранит данные и создает HTML и графики.
Я использую Monit, чтобы отслеживать запущенные процессы и перезапускать или предупреждать меня, когда возникают определенные настраиваемые условия (высокая загрузка процессора, высокое использование памяти, отсутствие HTTP-ответа и т. Д.) Monit также может отслеживать более общие сведения о сервере, такие как процессор загрузка, использование памяти, состояние жесткого диска или использование диска.
Monit необходимо настроить для каждой службы или оборудования, которое вы хотите отслеживать, и как реагировать, если что-то идет не так. Наиболее часто используемые варианты - ничего не делать, отправить электронное письмо с предупреждением или перезапустить службу.
Монит великолепен, когда он работает, но иногда он не запускает, не останавливает и не перезапускает службу, и не так много диагностической информации, чтобы сказать вам, что пошло не так. Это означает, что вы не знаете, была ли проблема в вашем сервисе или в конфигурации Monit, которая работает с минимальной средой, подобной cron.
Оба инструмента доступны по умолчанию в большинстве дистрибутивов Linux.
Я удивлен, что никто не упомянул logwatch или logcheck для серверов linux - экономит массу времени на чтение логов!!
Я являюсь частью проекта по обновлению оперативного мониторинга. У нас были разные поставщики, которые представили несколько больших долларовых систем и смешали несколько более дешевых альтернатив для сравнения.
Одним из них является Hyperic, который также доступен как бесплатное решение с открытым исходным кодом. Я был впечатлен его предоставленными возможностями и расширяемостью для пользовательских агентов.
Наш проект использует Ganglia для наших более чем 100 узловых кластеров. Одна из причин, по которой мы его используем, заключается в том, что это инструмент мониторинга, который поставляется с Rocks.
Для нас важно иметь очень низкие накладные расходы на каждом узле, чтобы как можно больше ресурсов было доступно для вычислений. Ganglia дает нам хороший обзор кластера и позволяет при необходимости развернуть детали до отдельных узлов. Помимо того, что мы знаем, что происходит сейчас, мы можем довольно хорошо взглянуть на то, что произошло за последний час, день, неделю, месяц и год. Графики различной статистики являются базовыми и функциональными.
Я использую Pingdom для мониторинга моего сервера. Он отправляет мне SMS-сообщение, когда сервер недоступен.
Все зависит от того, что вы подразумеваете под "монитором"!
- Это (система или услуга) доступно? Мы используем нагиос.
- Что это делает? Мы используем munin для серверов linux и cacti практически для всего остального, хотя иногда бывает сложно настроить...
- Что это сделало? Мы используем syslog-ng, чтобы сконцентрировать системные журналы в одном месте, а затем ежедневно запускаем настраиваемый скрипт logcheck для отправки отчетов по электронной почте. Мы ищем нечто подобное для серверов Windows.
Graphite ( http://graphite.wikidot.com/) - новый участник событий, чтобы проверить свою конкурентоспособность с Cacti и решениями на основе RRDTool.
RRDTool заменен резервным хранилищем под названием Whisper. Документы дают довольно хороший обзор того, чем они отличаются, и мне действительно нравится CLI для специальной графики при исследовании чего-либо.
Если вы спешите и хотите получить быстрый инструмент для мониторинга вашего MS-сервера, используйте монитор производительности для Windows, настройте журнал счетчиков с пользовательским шаблоном мониторинга и обычным расписанием (например, собирайте данные в течение 5 минут каждый час). Затем загрузите Microsoft LogParser и инструмент анализа производительности журналов (PAL) Codeplex ( http://pal.codeplex.com/), чтобы увеличить счетчик журналов. PAL создаст отличный документированный отчет со ссылками на возможные документы / инструменты для решения проблем.
Мы используем (и как) WhatsUp от Ipswitch для нашей относительно небольшой сети Windows. Он прост в настройке, относительно прост в управлении и знает, как работать с серверами Windows, а также со стандартными компонентами.
Для больших сетей, сетей, не ориентированных на Windows, или сетей с большим количеством разнообразных вещей, я искренне рекомендую OpenNMS. Программное обеспечение OpenNMS бесплатное, и компания более чем рада продать услуги поддержки и внедрения. Это также, оказывается, управляется очень острым моим другом из колледжа!
Хоббит - это более быстрая лучшая версия Большого Брата (которая в наши дни кажется пугающе коммерческой).
В настоящее время мы используем PRTG от Paessler. Это отлично Никаких агентов не требуется, отличный веб-интерфейс Ajax, историческая регистрация, графики, WMI и т. Д. И т. Д. Есть бесплатная версия с 10 датчиками, но мы взяли несколько штук для корпоративной версии. Деньги потрачены не зря.
Для тех, кому не нравится веб-интерфейс Nagios, есть NPC, плагин для Cacti, который делает интерфейс Nagios доступным из Cacti, но с лучшим внешним видом (ajax и т. Д.).
Он считывает данные из базы данных, предоставленной NDO2DB, что является отличным способом сделать вашу инфраструктуру доступной из базы данных для использования в сценариях и других инструментах.
Мы используем OpsView, который работает поверх Nagios. Веб-интерфейс помогает нам развернуть новые определения монитора хоста без необходимости доступа по SSH, предоставляет публичные представления и записывает исторические значения. Это удобно для обеспечения и определения подходящих базовых показателей.
Zabbix ( http://www.zabbix.com/) также хорош и проще в настройке, чем Nagios.
Я использую комбинацию Solarwinds, вкладок производительности сервера VMware и пользовательских сценариев.
Монитор производительности сети Solarwinds Orion - это то, что я использую с нашей системой Windows. админы на моих веб серверах. На нем по-прежнему работают некоторые полезные метрики приложений, но в нем есть хорошая информация об элементах базового уровня (диск, сеть, процессор).
For my VMware guests, I love the performance tabs.
For my Sun servers, when I need something that isn't available in Solarwinds (because our admin hasn't added it or what), I write custom scripts (usually in Perl) to monitor things like mirror health, swap usage, etc.
I'd like to get more onto Solarwinds, but there's only like 26 hours in a day (or so my boss believes) so I find that can be a tad limiting...
Я использую PA Server Monitor. Он в основном ориентирован на Windows (журналы событий, счетчики производительности, службы и т. Д.), Хотя с другими системами он становится лучше, когда была добавлена ограниченная поддержка SNMP. Что мне нравится больше всего, так это то, что он прост в настройке по сравнению со многими приложениями (без конфигурационных файлов, без командных строк и т. Д.). Я не рекомендовал бы это для тяжелой *nix среды.
О, это не бесплатно, но дешевле, чем некоторые конкуренты.
Мы написали наше собственное программное обеспечение для мониторинга. Наш код не так сложен, как коммерческий пакет, но нам не нужно было много функциональности. Нам было проще написать свой собственный, чем исследовать другие пакеты и научиться их использовать. Код делает то, что мы хотим, и его легко расширять.