Описание тега mapreduce

1 ответ

Как просмотреть статус последних работ AppEngine mapreduce?

Недавно мы обновили наше приложение App Engine до GAE SDK 1.9 и обновили старую библиотеку MapReduce, которую мы использовали, до самой последней версии, размещенной на GitHub. Теперь мы обнаруживаем, что на старой странице состояния MapReduce (http…
0 ответов

Как повысить производительность в Amazon Elastic Mapreduce для выполнения заданий?

Моя задача: Изначально я хочу импортировать данные из MS SQL Server в HDFS, используя SQOOP. Через Hive я обрабатываю данные и генерирую результат в одной таблице Этот результат, содержащий таблицу из Hive, снова экспортируется в MS SQL SERVER обрат…
07 май '12 в 12:08
1 ответ

Лучшая практика для администрирования (hadoop) кластера

Я недавно играл с Hadoop. У меня есть кластер из шести узлов, запущенный с HDFS и запустивший несколько заданий MapRed. Все идет нормально. Однако сейчас я хочу сделать это более систематически и с большим количеством узлов. Наша базовая система - U…
08 мар '11 в 07:23
1 ответ

Как определить время ожидания для действий начальной загрузки на Amazon Elastic MapReduce?

Как изменить время ожидания для действий начальной загрузки на Amazon Elastic MapReduce?
13 ноя '11 в 21:49
0 ответов

Как отладить действие Oozie, застрявшее в состоянии DONE

У меня есть рабочий процесс Oozie, который используется для всех заданий, и через несколько дней некоторые из представленных заданий застряли в режиме RUNNING. Глядя на работу, последнее действие в состоянии Готово. oozie job -info 0014479-180613114…
15 июн '18 в 09:27
0 ответов

Ключ ssh распределительного узла

Чтобы мастер-узел мог перешагнуть ssh без пароля в подчиненные устройства, мастер должен передать свой ключ ssh подчиненным. Копирование ключа с использованием ssh-copy-id запрашивает пароль пользователя. Если в системе сотни узлов, не рекомендуется…
16 июл '14 в 01:08
0 ответов

Пример вывода Rumen или Ввод в Gridmix

Я хочу видеть журналы JobHistory, которые можно подавать в качестве входных данных в рубец. В частности, мне интересно знать формат ввода для Gridmix. Я попробовал следующие две вещи для этого: 1) Я нашел эти файлы: Что это за файл? Это выходной фор…
06 апр '18 в 20:24
1 ответ

MongoDB Locking - Очень, очень, медленно, чтобы читать

Это вывод из db.currentOp(): > db.currentOp() { "inprog" : [ { "opid" : 2153, "active" : false, "op" : "update", "ns" : "", "query" : { "name" : "Run_KPIS", "profile" : "totals" }, "client" : ":34140", "desc" : "conn127", "threadId" : "0x7f1d0f03…
05 апр '13 в 10:19
0 ответов

Потоковая передача Hadoop с помощью Python 3.5: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): сбой подпроцесса с кодом 127

Я пытаюсь запустить свои собственные скрипты Python для картографирования и редуктора, используя потоковую передачу Hadoop на моем кластере, построенном на виртуальных машинах VMware Workstation. Версия Hadoop - 2.7, Python - 3.5, ОС - CentOS 7.2 на…
08 окт '16 в 05:28
2 ответа

Обновление группы без выхода из системы или подоболочки

Я пытаюсь запустить Docker для потоковой передачи Elastic MapReduce, но у меня возникли проблемы с разрешением. В моем скрипте начальной загрузки мне нужно, чтобы пользователь hadoop был частью группы docker (как описано на странице Основы AWS Docke…
10 мар '16 в 04:29
1 ответ

Hadoop FileAlreadyExistsException: выходной каталог hdfs: //<namenode public dns>: 9000 / вход уже существует

У меня есть настройка Hadoop в полностью распределенном режиме с одним ведущим и 3 ведомыми. Я пытаюсь выполнить файл JAR с именем Tasks.jar который принимает arg[0] в качестве входного каталога и arg[1] в качестве выходного каталога. В моей среде h…
14 окт '16 в 02:37
2 ответа

hadoop-config.sh в bin/ и libexec/

При настройке hadoop я обнаружил, что скрипт hadoop-config.sh присутствует в двух каталогах: bin/ и libexec/. Оба файла идентичны. Просматривая сценарии, я обнаружил, что если в libexec присутствует hadoop-config.sh, то он выполняется. Если нет, то …
03 июл '14 в 17:31
1 ответ

Задание MapReduce зависает после выполнения 1 из 5 редукторов в среде с одним узлом

У меня есть только один узел данных в моей среде разработки на EC2. Я выполнял тяжелую работу MR и через 6 часов заметил, что 100% картографов и 20% редукторов закончили (1 из редукторов показывает 100% конкуренции, другие - 0%). Похоже, работа подв…
09 ноя '12 в 17:21