Решение для мониторинга, которое не дублирует исходные данные?
Мне нужно проанализировать данные, хранящиеся в нескольких базах данных. Каждый из них содержит несколько ТБ журналов и данных датчиков.
Если я использую Splunk или ElasticSearch/Kibana, я вижу 2 решения:
Пакетный импорт всего
Напишите несколько скриптов для импорта только тех данных, которые мне нужны, по запросу
Это не оптимально, потому что с 1. Я дублирую ТБ данных, а с 2. Мне нужна некоторая пользовательская логика, которая не будет интегрирована с моим аналитическим инструментом.
Мои вопросы:
Есть ли способ выполнить аналитику на месте с помощью Splunk или Kibana, то есть пропустить шаг импорта и просто прочитать все из существующих баз данных?
Или есть инструмент, который будет автоматически получать соответствующие данные и только соответствующие данные?
1 ответ
Чтобы иметь возможность быстрого поиска данных, я советую Elasticsearch. В зависимости от логики соответствующих данных, вы можете использовать ElasticSearch Rivers http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/
Это позволяет Elastic Search извлекать все (соответствующие) данные. Мой опыт показывает, что в ElasticSearch ТБ данных, которые вы сохранили, будет уменьшен до нескольких ГБ