Настройка проверки работоспособности для экземпляров EC2 с помощью DataDog

У меня есть существующая инфраструктура AWS, интегрированная с DataDog, которая отвечает за мониторинг различных метрик, например, очередей SQS, ELB и т. Д.

Я хотел бы настроить проверку работоспособности для некоторых веб-сайтов и API. Насколько я знаю, это можно сделать с помощью проверки работоспособности AWS ELB. Однако я хотел бы эмулировать взаимодействие с конечным пользователем, чтобы запрос отправлялся из внешнего мира и передавался через ELB и в приложение. Кроме того, не все приложения в настоящее время имеют ELB. Я решил использовать HTTP-проверки DataDog. Вопрос в том, должен ли я иметь отдельный экземпляр EC2 для установки агента? Я, конечно, не хочу устанавливать агент на той же машине, что и веб-сайт, и пинговать его, поскольку он может пропустить различные проблемы с сетью.

Я также рассмотрел проверки работоспособности Route 53, которые будут отслеживаться DataDog, но я не думаю, что они будут достаточно быстрыми, поскольку обмен данными между DataDog и AWS обычно задерживается по сравнению с отчетами агента DataDog.


Обновление: на данный момент я решил использовать Route 53 Health Checks и CloudWatch. DataDog отвечает за отправку уведомлений при срабатывании определенной тревоги. Как и ожидалось, между тревогой и реакцией DataDog есть некоторая задержка, но она оказалась приемлемой.

Для более глубокого и более серьезного анализа я также рассмотрел New Relic и Application Insights. Кажется, что оба они обеспечивают необходимые проверки работоспособности, хотя New Relic довольно дорогой, а Application Insights лучше интегрируется с Azue.

1 ответ

Я бы предложил использовать сторонний сервис для этого. Так как у нас уже была новая реликвия, мы использовали мониторинг доступности, чтобы пинговать некоторые из наших точек API. Он также должен хорошо интегрироваться с Datadog. Просто для этой проверки ping newrelic, вероятно, слишком дорог, но есть и другие доступные варианты, такие как https://www.host-tracker.com/ которые могут быть интегрированы с использованием их API.

Другие вопросы по тегам