Добавление более мелких узлов в псевдораспределенный кластер Nutch/ Hadoop

У меня псевдораспределение Nutch/ Hadoop работает нормально. Я хочу добавить вычислительную мощность, добавив новые узлы, которые меньше основного (в 3 раза меньше HD) и, конечно, дешевле.

Поскольку репликация HDFS по умолчанию равна 3, после балансировки данных я не получу больше места, что не является моей проблемой в первую очередь.

Я все еще получаю больше вычислительной мощности?

Я не понимаю, как сопоставить / уменьшить задачи работают против репликации. Как определяется, какие узлы получают работу из другой реплики.

2 ответа

Вам нужно будет перейти к настройке кластера из настройки псевдокластера, и, таким образом, вы действительно получите больше процессивности из своего кластера, добавив больше узлов, то есть вы сможете обрабатывать больше карт и сокращать задачи. Увеличение процессивности, как и следовало ожидать, является линейным.

Репликация будет определять количество копий, которые присутствуют в вашем кластере для каждого блока HDFS. Итак, давайте предположим, что у вас есть файл, который разбит на 6 блоков, для репликации в 3, 18 блоков будут распределены в вашем кластере. Чем больше у вас узлов, тем выше охват, который вы получите, и, следовательно, когда дело доходит до начала фазы вашей карты, между данными нужно будет передавать меньше данных. И чтобы ответить на ваш последний вопрос, Hadoop всегда будет пытаться назначить задачи карты узлам, которые служат датодами для ввода этих задач карты. Таким образом, в этом случае репликации упростят эту задачу, поскольку на выбор будет больше пулов треккеров.

Ваш вопрос немного сбивает с толку. Если вы работаете в псевдораспределенном режиме, то все четыре процесса (JobTracker, NameNode, DataNode, TaskTracker) запускаются в одной (обычно разрабатываемой) системе.

В конфигурации Hadoop xxx-site.xml для псевдораспределения все говорит с localhost, поэтому добавление новых узлов не будет работать.

Если оставить это в стороне, если вы добавляете больше узлов, и на них работают как DataNodes, так и TaskTrackers, то вы получите дополнительное хранилище и загрузку ЦП.

Обратите внимание, что при заполнении HDFS 3-х кратная репликация станет невозможной, когда все меньшие узлы заполнены, поэтому вы начнете получать предупреждения / ошибки.

Другие вопросы по тегам