Решение для мониторинга, которое не дублирует исходные данные?

Мне нужно проанализировать данные, хранящиеся в нескольких базах данных. Каждый из них содержит несколько ТБ журналов и данных датчиков.

Если я использую Splunk или ElasticSearch/Kibana, я вижу 2 решения:

  1. Пакетный импорт всего

  2. Напишите несколько скриптов для импорта только тех данных, которые мне нужны, по запросу

Это не оптимально, потому что с 1. Я дублирую ТБ данных, а с 2. Мне нужна некоторая пользовательская логика, которая не будет интегрирована с моим аналитическим инструментом.

Мои вопросы:

  • Есть ли способ выполнить аналитику на месте с помощью Splunk или Kibana, то есть пропустить шаг импорта и просто прочитать все из существующих баз данных?

  • Или есть инструмент, который будет автоматически получать соответствующие данные и только соответствующие данные?

1 ответ

Чтобы иметь возможность быстрого поиска данных, я советую Elasticsearch. В зависимости от логики соответствующих данных, вы можете использовать ElasticSearch Rivers http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/

Это позволяет Elastic Search извлекать все (соответствующие) данные. Мой опыт показывает, что в ElasticSearch ТБ данных, которые вы сохранили, будет уменьшен до нескольких ГБ

Другие вопросы по тегам