Описание тега big-data
0
ответов
Интеграция ntopng с большими данными
Я пробовал параметр -F в ntopng, но он дает только истекшие потоки. Есть ли какой-нибудь способ получить / передать живые данные ntopng в базу данных?
03 июн '18 в 16:49
1
ответ
MySQL Cluster ndb_restore завершается с ошибкой без ошибок
Я работал над переносом нашей текущей единой базы данных в новую кластерную базу данных, работающую под кластером MySQL. Это большая база данных (несколько миллиардов записей), и, хотя она, кажется, работает достаточно хорошо, мне трудно восстановит…
07 апр '15 в 09:21
0
ответов
Избегайте использования диска kafka на 100% для задания Cron
Мы хотим предложить следующее, основываясь на наших проблемах с дисками kafka. У нас есть много кластеров HDP (на основе ambari, и все машины имеют версию 7.2) Каждый кластер включает в себя 3 машины kafka, в то время как каждый kafka включает диск …
05 ноя '18 в 19:02
0
ответов
Балансировка HDFS, как сбалансировать данные hdfs?
у нас есть версия Hadoop - 2.6.4 На машине датоде мы видим, что данные hdfs не сбалансированы На некоторых дисках мы используем разные размеры, как SDB 11G и SDD 17G /dev/sdd 20G 3.0G 17G 15% /grid/sdd /dev/sdb 20G 11G 9.3G 53% /grid/sdb <-- WHY …
07 мар '19 в 17:23
2
ответа
Как лучше всего хранить изображения на сайте?
Мы используем базу данных cassandra для хранения информации на веб-сайте, но не уверены, как сохранить изображения. Мы можем хранить их в Кассандре, но мы также можем выделить сервер для хранения изображений. Cassandra обладает хорошей производитель…
16 июл '13 в 13:56
0
ответов
Hadoop - на проводной мониторинг производительности?
Мне было поручено реализовать решение для мониторинга "на проводе" для большой установки Hadoop. Источником данных будет комбинация отводов и SPAN по всей среде. Обычный устав моей команды - анализ пакетов и анализ производительности сети. Учитывая …
15 мар '14 в 01:30
1
ответ
База данных SQL Server 0,5 ТБ, возможно ли хранить на отдельном сервере?
Перед нами стоит задача хранения 0,5 ТБ данных на сервере SQL Server 2008. Возможно ли сделать это на отдельном сервере? Позже мы также хотим запросить для генерации статистики данных (много групп, внутренних объединений и т. Д.), Но база данных оче…
05 авг '14 в 10:49
0
ответов
HDFS выступления на Apache Spark
У меня есть несколько вопросов, связанных с HDFS, которые могут иметь разные корни. Я публикую как можно больше информации с надеждой, что смогу узнать ваше мнение хотя бы по некоторым из них. В основном это следующие случаи: HDFS классы не найдены …
13 июл '15 в 20:53
1
ответ
Восстановление свободного места в файловой группе с одним хронологическим разделом
Переехал сюда из ТАК (там никаких комментариев) Вопрос: Как правильно восстановить пространство в большой (сотни ГБ) файловой группе с одним разделом таблицы, который упорядочен в хронологическом порядке и не имеет фрагментации индекса и не может по…
19 апр '15 в 09:25
0
ответов
Неисправность ремонта инструмента Cassandra - сломанная труба
Мы пытаемся проверить целостность данных нашего кластера Cassandra с помощью: nodetool repair но через несколько минут (~2-10 минут) мы получили странные сбросы соединения / сломанная труба трассировка стека на первом узле: ERROR [STREAM-OUT-/52.xx.…
14 янв '16 в 16:31
2
ответа
В какой момент вы рассматриваете переход от облака к колокации?
В настоящее время я работаю по цене от 25 до 40 долларов в месяц на AWS. У меня есть около 30 ТБ данных, проиндексированных в Elasticsearch, с рабочим кластером из 4 узлов и еще одним промежуточным кластером из 4 узлов. Каждая система в кластере име…
28 окт '16 в 13:32
0
ответов
Самый быстрый способ получить большое количество маленьких файлов с удаленного FTP-сервера
В Fintech следующий сценарий кажется довольно распространенным: Вы заплатили за доступ к огромному набору данных, но он предоставляется вам в виде тысяч маленьких файлов, каждый из которых занимает около 300 КБ, но в общей сложности составляет около…
11 сен '16 в 23:02
1
ответ
Можем ли мы редактировать схему таблицы больших запросов после создания?
Я сделал ошибку, указав поле как целое число вместо числа с плавающей точкой. Я обнаружил, что не могу внести исправления в поле после создания таблицы. Я должен удалить и заново создать таблицу, чтобы все исправить. Кто-нибудь знает лучший способ и…
06 дек '17 в 03:40
7
ответов
Как проверить идентичность огромных файлов, если хеширование связано с процессором?
Для маленьких файлов хэширование просто нормально, но с огромными вы можете легко найти md5sum привязан к процессору. Есть ли алгоритм хеширования, способный масштабироваться на нескольких ядрах? Есть обходные пути? Идеи? Что-нибудь?:)
26 июн '16 в 10:59
0
ответов
Presto Maximum одновременных сессий
Presto не может обрабатывать много одновременных сессий. Каково максимальное количество одновременных сеансов на Presto и как установить параметр для этого? и как справиться с максимальной JVM?
23 янв '17 в 18:58
1
ответ
Как перенастроить значения сервисов Ambari с помощью файла blueprint.json
У нас есть много LAB-кластеров Ambari - Apache Ambari версии 2.5.0.3, в то время как агент ambari установлен на компьютерах Redhat Linux моя цель состоит в том, чтобы найти способ обновить значения сервисов во всех кластерах Ambari, автоматизировав …
08 авг '17 в 14:04
2
ответа
Насколько плохо сетевое хранилище для определенных облачных приложений?
Я слышал, что рекомендовал держаться подальше от хостинга AWS для некоторых приложений "больших данных" (например, Hadoop, Cassandra, Solr), потому что экземпляры EC2 обычно используют сетевое хранилище (хотя в последнее время есть несколько экземпл…
14 авг '13 в 21:37
1
ответ
Почему агент ambari настаивает на создании другого файла репозитория
Мы устанавливаем новую версию hadoop - 2.6.3.0 на ambari - 2.6.0 из журнала агента ambari мы видим следующее: Writing File['/etc/yum.repos.d/ambari-hdp-51.repo'] because contents don't match зачем ambari создать файл - ambari-hdp-51.repo,? Возможно …
14 янв '18 в 00:46
1
ответ
Как определить значение yarn.scheduler.maximum-distribution-vcores в кластере ambari
У нас есть кластер ambari (версия 2.6) с 3 рабочими машинами, и на каждой рабочей машине имеется 16 CPU Core (см. рис. вниз), в то время как каждая машина имеет 32G памяти в соответствии с: yarn.nodemanager.resource.cpu-vcores: установите соответств…
11 фев '18 в 21:23
0
ответов
spark.dynamicAllocation + настройка параметров искры в соответствии с кластером ambari
Мы хотим найти значения для следующих параметров искры в соответствии с входными данными, такими как память на машине с датоде, CPU CORE на машине с узлом данных, номера машины с датодой и т. д., spark.dynamicAllocation.initialExecutors = ? spark.dy…
08 фев '18 в 20:51