Hadoop - на проводной мониторинг производительности?
Мне было поручено реализовать решение для мониторинга "на проводе" для большой установки Hadoop. Источником данных будет комбинация отводов и SPAN по всей среде. Обычный устав моей команды - анализ пакетов и анализ производительности сети. Учитывая архитектуру этой реализации (и объем данных), анализ необработанных пакетов с помощью таких инструментов, как Wireshark и другие, просто неосуществим.
Какие у меня варианты?
Мы смотрим на такие вещи, как:
-Как работает Scoop/JDBC
-Как производительность соединения между уровнем управления и уровнем данных
-DNS является ключом к этой реализации. Отвечают ли сетевые службы соответствующим образом?
Пока мы будем устанавливать стандартный набор инструментов мониторинга; Ganglia и Nagios, мы хотели бы иметь эти внешние данные жесткой сети для проверки производительности. Некоторые из инструментов, с которыми у нас есть опыт, это CompuWare DCRUM/Dynatrace, NetScout, сетевые инструменты, Extrahop и Riverbed.
Каковы ваши переживания?