Описание тега apache-spark

1 ответ

Откройте случайный порт в кластере машин

Я использую Apache Spark, Java-приложение, для создания кластера машин. Запущенные процессы пытаются связываться друг с другом через рандомизированные порты. Есть ли способ сценария открытия случайного порта в кластере? Это аналогичный ответ, но я х…
24 янв '19 в 15:03
0 ответов

Искровая ошибка: не удалось отправить RPC на Datanode

У нас довольно мало проблем с нашим сервером Spark Thrift. Это новый кластер Ambari, и сейчас не выполняются задания Spark. Из журнала мы видим сообщение об ошибке: Failed to send RPC 9053901149358924945 to /DATA NODE MACHINE:50149 Пожалуйста, посов…
07 фев '18 в 17:35
0 ответов

Ошибка индексации Solr Spark из-за ошибки при доступе к коллекции

Я использую Solr с Spark в Java для индексирования документов. (Ubuntu 16.0.4) Я настроил Zookeeper на порт 2181, и в моем тесте на коллекцию было два шарда Когда я запускаю свой код, у меня появляется исключение java.lang.NullPointerException. Вот …
02 май '18 в 23:03
0 ответов

Как использовать Cassandra с Spark в образе Docker?

(Надеюсь, этот вопрос подходит для ServerFault, если нет, прокомментируйте, и я его удалю) Я пытаюсь создать образ докера, где Cassandra и Spark будут установлены и настроены для совместной работы. Я никогда не использовал Spark (и никогда не создав…
20 янв '19 в 10:48
2 ответа

Как я могу запустить Spark на кластере, используя Slurm?

Я написал программу example.jar который использует контекст искры. Как я могу запустить это на кластере, который использует Slurm? Это связано с https://stackoverflow.com/questions/29308202/running-spark-on-top-of-slurm но ответы не очень подробны и…
13 май '16 в 21:46
0 ответов

Сколько дисков для spark_local_dirs?

Я ищу решение для улучшения производительности моего кластера Spark, которое я прочитал по http://spark.apache.org/docs/latest/hardware-provisioning.html: Мы рекомендуем иметь 4-8 дисков на узел Я пробовал как с одним, так и с двумя дисками, но я ви…
18 апр '16 в 07:48
1 ответ

Невозможно запустить Spark Cluster в Google DataProc

Я запускаю 6-узловый спарк-кластер в Google Data Proc, и в течение нескольких минут после запуска спарка и выполнения основных операций я получаю следующую ошибку OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000fbe00000, 24641536…
1 ответ

S3 кросс-аккаунт разрешений

Подобно тому, что описано в этой статье [0], компания, в которой я работаю, использует учетную запись AWS для хранения пользователей IAM и других учетных записей AWS для разделения различных рабочих сред (prod, dev и т. Д.). Это важно по той причине…
13 дек '17 в 20:03
0 ответов

Можно ли настроить Spark для прослушивания нескольких сетевых интерфейсов / IP-адресов?

Узлы в моем кластере Spark имеют два сетевых интерфейса каждый, один общедоступный и один частный. С использованием SPARK_MASTER_IP Переменная окружения, я могу настроить Spark для прослушивания через порт 7077 по одному или другому IP-адресу. Напри…
27 янв '16 в 21:22
0 ответов

Проблемы с памятью в приложении Spark на AWS EMR

Я уже некоторое время пытаюсь разобраться с проблемами с памятью, и я просто не могу понять, в чем проблема. Любая помощь очень ценится. Ошибка: [![OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x00000005662c0000, 10632822784, 0) failed;…
16 июн '16 в 11:05
1 ответ

Как настроить клиент Spark, работающий в контейнере Docker, для двусторонней связи с удаленным кластером Spark?

spark-submit Кажется, для выполнения заданий требуется двусторонняя связь с удаленным кластером Spark. Это легко настроить между компьютерами (от 10.xxx до 10.xxx и обратно), но становится непонятным, когда Docker добавляет дополнительный сетевой ур…
28 янв '16 в 15:30
0 ответов

Можно ли запустить графический интерфейс Spark, чтобы URL-адреса не находились в корневом каталоге?

Графический интерфейс Apache Spark предполагает, что он работает на порту 4040 и обслуживает URL-адреса, начинающиеся с / во всех своих ссылках, то есть абсолютные URL-адреса, а не относительные. Например, чтобы посмотреть информацию для задания 0, …
16 мар '19 в 21:35
2 ответа

Эквивалентно команде top в кластере EMR?

У меня есть кластер EMR с тремя экземплярами, работающий на AWS, и в данный момент он реагирует очень медленно. При проверке панели инструментов Hadoop на порте 8088 в моем браузере я вижу "Используемая память: 203,5 ГБ" и "Доступная память: 214 ГБ"…
24 май '18 в 07:30
0 ответов

Амбари кластер + когда нужно установить блок репликации на 1

В журналах Spark мы получаем следующее: java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try. (Nodes: current=[DatanodeInfoWithStorage DatanodeInfoWithStorage\ The curren…
31 янв '18 в 09:20
0 ответов

Spark: пример Pi генерирует исключение NoSuchFileException в режиме кластера

Я настроил кластер Spark 2.3.1, однако у меня возникли проблемы с отправкой ему образца задания SparkPi: Running Spark using the REST application submission protocol. 2018-09-06 13:45:53 INFO RestSubmissionClient:54 - Submitting a request to launch …
06 сен '18 в 21:37
0 ответов

Spark: пример Pi генерирует исключение SocketTimeoutException в режиме кластера k8s

Я настроил кластер Spark 2.3.1 на kubernetes, однако у меня возникли проблемы с отправкой ему образца задания SparkPi: Скрипт отправки, который я использую: bin/spark-submit \ --master k8s://https://10.0.15.7:7077 \ --deploy-mode cluster \ --name sp…
06 сен '18 в 23:43
1 ответ

Как определяется количество разделов RDD в Apache Spark?

Вопрос Как определяется количество разделов Spark? Нужно ли где-то явно указывать количество доступных ядер ЦП, чтобы число разделов было одинаковым (например, numPartition arg метода параллелизации, но затем нужно обновлять программу всякий раз, ко…
26 сен '16 в 22:42
0 ответов

spark.dynamicAllocation + настройка параметров искры в соответствии с кластером ambari

Мы хотим найти значения для следующих параметров искры в соответствии с входными данными, такими как память на машине с датоде, CPU CORE на машине с узлом данных, номера машины с датодой и т. д., spark.dynamicAllocation.initialExecutors = ? spark.dy…
08 фев '18 в 20:51
1 ответ

Как установить hadoop2.4.1 в windows с spark 2.0.0

Я хочу настроить кластер, используя hadoop в режиме пряжи.. я хочу использовать API-интерфейс spark для map-Reduce и буду использовать spark submit для развертывания моих приложений.. я хочу работать на кластере.. кто-нибудь может мне помочь, как ус…
13 мар '17 в 12:26