Gangta gmetad segfaults после некоторого запуска (на AWS EC2)

Мы используем Ganglia для мониторинга нашей облачной инфраструктуры на Amazon AWS. Все работает правильно (метрики текут и т. Д.), За исключением того, что время от времени процесс gmetad может неожиданно оборваться. Процесс gmetad выполняется на m3.medium EC2 и отслеживает около 50 серверов. Серверы объединены в группы, каждый из которых имеет бастион EC2, где собираются метрики. gmetad настроен на сбор метрик с этих бастонов - около 10 из них.

Некоторые полезные факты:

  • Мы используем Debian Wheezy на всех EC2
  • Сбой не создает журналы в нормальной работе, кроме журнала segfault, что-то вроде "gmetad[11291]: segfault at 71 ip 000000000040547c sp 00007ff2d6572260 ошибка 4 в gmetad[400000+e000]". Если мы запустим gmetad вручную с ведением журнала отладки, похоже, что сбой связан с выполнением очистки gmetad.
  • Когда мы поняли, что виноват процесс очистки, мы провели больше исследований по этому вопросу. Мы поняли, что наш дисковый ввод-вывод был слишком высоким, и добавили rrdcached, чтобы уменьшить его. Дисковый ввод-вывод теперь намного ниже, и сбой происходит реже, но все равно в среднем один раз в день или около того.
  • У нас есть две системы (разработка и производство). Оба демонстрируют этот сбой, но система разработки, которая отслеживает гораздо меньшую группу серверов, дает сбой значительно реже.
  • Производственная система работает под управлением ganglia 3.3.8-1+nmu1/rrdtool 1.4.7-2. Мы обновили ganglia в системах разработки до ganglia 3.6.0-2~bpo70+1/rrdtool 1.4.7-2. Это, похоже, не помогло с крушением.
  • Мы выполняем мониторинг на обеих системах, настроенных на перезапуск gmetad в случае его смерти. Перезапускается сразу без проблем.

Кто-нибудь сталкивался с таким сбоем, особенно на оборудовании Amazon? Мы в конце концов пытаемся найти решение!

0 ответов

Другие вопросы по тегам