Описание тега big-data

Вопросы с тегом

0 ответов

Интеграция ntopng с большими данными

Я пробовал параметр -F в ntopng, но он дает только истекшие потоки. Есть ли какой-нибудь способ получить / передать живые данные ntopng в базу данных?

ntop big-data

03 июн '18 в 16:49

1 ответ

MySQL Cluster ndb_restore завершается с ошибкой без ошибок

Я работал над переносом нашей текущей единой базы данных в новую кластерную базу данных, работающую под кластером MySQL. Это большая база данных (несколько миллиардов записей), и, хотя она, кажется, работает достаточно хорошо, мне трудно восстановит…

07 апр '15 в 09:21

0 ответов

Избегайте использования диска kafka на 100% для задания Cron

Мы хотим предложить следующее, основываясь на наших проблемах с дисками kafka. У нас есть много кластеров HDP (на основе ambari, и все машины имеют версию 7.2) Каждый кластер включает в себя 3 машины kafka, в то время как каждый kafka включает диск …

linux hadoop kafka big-data

05 ноя '18 в 19:02

0 ответов

Балансировка HDFS, как сбалансировать данные hdfs?

у нас есть версия Hadoop - 2.6.4 На машине датоде мы видим, что данные hdfs не сбалансированы На некоторых дисках мы используем разные размеры, как SDB 11G и SDD 17G /dev/sdd 20G 3.0G 17G 15% /grid/sdd /dev/sdb 20G 11G 9.3G 53% /grid/sdb <-- WHY …

linux hadoop hdfs big-data

07 мар '19 в 17:23

2 ответа

Как лучше всего хранить изображения на сайте?

Мы используем базу данных cassandra для хранения информации на веб-сайте, но не уверены, как сохранить изображения. Мы можем хранить их в Кассандре, но мы также можем выделить сервер для хранения изображений. Cassandra обладает хорошей производитель…

performance storage cassandra image big-data

16 июл '13 в 13:56

0 ответов

Hadoop - на проводной мониторинг производительности?

Мне было поручено реализовать решение для мониторинга "на проводе" для большой установки Hadoop. Источником данных будет комбинация отводов и SPAN по всей среде. Обычный устав моей команды - анализ пакетов и анализ производительности сети. Учитывая …

performance-monitoring network-monitoring hadoop packet-analyzer big-data

15 мар '14 в 01:30

1 ответ

База данных SQL Server 0,5 ТБ, возможно ли хранить на отдельном сервере?

Перед нами стоит задача хранения 0,5 ТБ данных на сервере SQL Server 2008. Возможно ли сделать это на отдельном сервере? Позже мы также хотим запросить для генерации статистики данных (много групп, внутренних объединений и т. Д.), Но база данных оче…

storage sql-server-2008 sql query big-data

05 авг '14 в 10:49

0 ответов

HDFS выступления на Apache Spark

У меня есть несколько вопросов, связанных с HDFS, которые могут иметь разные корни. Я публикую как можно больше информации с надеждой, что смогу узнать ваше мнение хотя бы по некоторым из них. В основном это следующие случаи: HDFS классы не найдены …

datacenter hdfs big-data

13 июл '15 в 20:53

1 ответ

Восстановление свободного места в файловой группе с одним хронологическим разделом

Переехал сюда из ТАК (там никаких комментариев) Вопрос: Как правильно восстановить пространство в большой (сотни ГБ) файловой группе с одним разделом таблицы, который упорядочен в хронологическом порядке и не имеет фрагментации индекса и не может по…

sql-server partition database-administration big-data

19 апр '15 в 09:25

0 ответов

Неисправность ремонта инструмента Cassandra - сломанная труба

Мы пытаемся проверить целостность данных нашего кластера Cassandra с помощью: nodetool repair но через несколько минут (~2-10 минут) мы получили странные сбросы соединения / сломанная труба трассировка стека на первом узле: ERROR [STREAM-OUT-/52.xx.…

cluster cassandra datastax-enterprise big-data

14 янв '16 в 16:31

2 ответа

В какой момент вы рассматриваете переход от облака к колокации?

В настоящее время я работаю по цене от 25 до 40 долларов в месяц на AWS. У меня есть около 30 ТБ данных, проиндексированных в Elasticsearch, с рабочим кластером из 4 узлов и еще одним промежуточным кластером из 4 узлов. Каждая система в кластере име…

amazon-web-services colocation big-data

28 окт '16 в 13:32

0 ответов

Самый быстрый способ получить большое количество маленьких файлов с удаленного FTP-сервера

В Fintech следующий сценарий кажется довольно распространенным: Вы заплатили за доступ к огромному набору данных, но он предоставляется вам в виде тысяч маленьких файлов, каждый из которых занимает около 300 КБ, но в общей сложности составляет около…

ftp bandwidth compression big-data

11 сен '16 в 23:02

1 ответ

Можем ли мы редактировать схему таблицы больших запросов после создания?

Я сделал ошибку, указав поле как целое число вместо числа с плавающей точкой. Я обнаружил, что не могу внести исправления в поле после создания таблицы. Я должен удалить и заново создать таблицу, чтобы все исправить. Кто-нибудь знает лучший способ и…

google-cloud-platform big-data

06 дек '17 в 03:40

7 ответов

Как проверить идентичность огромных файлов, если хеширование связано с процессором?

Для маленьких файлов хэширование просто нормально, но с огромными вы можете легко найти md5sum привязан к процессору. Есть ли алгоритм хеширования, способный масштабироваться на нескольких ядрах? Есть обходные пути? Идеи? Что-нибудь?:)

multi-core hash big-data

26 июн '16 в 10:59

0 ответов

Presto Maximum одновременных сессий

Presto не может обрабатывать много одновременных сессий. Каково максимальное количество одновременных сеансов на Presto и как установить параметр для этого? и как справиться с максимальной JVM?

database big-data

23 янв '17 в 18:58

1 ответ

Как перенастроить значения сервисов Ambari с помощью файла blueprint.json

У нас есть много LAB-кластеров Ambari - Apache Ambari версии 2.5.0.3, в то время как агент ambari установлен на компьютерах Redhat Linux моя цель состоит в том, чтобы найти способ обновить значения сервисов во всех кластерах Ambari, автоматизировав …

linux hadoop json big-data

08 авг '17 в 14:04

2 ответа

Насколько плохо сетевое хранилище для определенных облачных приложений?

Я слышал, что рекомендовал держаться подальше от хостинга AWS для некоторых приложений "больших данных" (например, Hadoop, Cassandra, Solr), потому что экземпляры EC2 обычно используют сетевое хранилище (хотя в последнее время есть несколько экземпл…

amazon-web-services network-attached-storage big-data

14 авг '13 в 21:37

1 ответ

Почему агент ambari настаивает на создании другого файла репозитория

Мы устанавливаем новую версию hadoop - 2.6.3.0 на ambari - 2.6.0 из журнала агента ambari мы видим следующее: Writing File['/etc/yum.repos.d/ambari-hdp-51.repo'] because contents don't match зачем ambari создать файл - ambari-hdp-51.repo,? Возможно …

linux redhat hadoop big-data

14 янв '18 в 00:46

1 ответ

Как определить значение yarn.scheduler.maximum-distribution-vcores в кластере ambari

У нас есть кластер ambari (версия 2.6) с 3 рабочими машинами, и на каждой рабочей машине имеется 16 CPU Core (см. рис. вниз), в то время как каждая машина имеет 32G памяти в соответствии с: yarn.nodemanager.resource.cpu-vcores: установите соответств…

linux hadoop big-data

11 фев '18 в 21:23

0 ответов

spark.dynamicAllocation + настройка параметров искры в соответствии с кластером ambari

Мы хотим найти значения для следующих параметров искры в соответствии с входными данными, такими как память на машине с датоде, CPU CORE на машине с узлом данных, номера машины с датодой и т. д., spark.dynamicAllocation.initialExecutors = ? spark.dy…

hadoop apache-spark big-data

08 фев '18 в 20:51