Добавление более мелких узлов в псевдораспределенный кластер Nutch/ Hadoop
У меня псевдораспределение Nutch/ Hadoop работает нормально. Я хочу добавить вычислительную мощность, добавив новые узлы, которые меньше основного (в 3 раза меньше HD) и, конечно, дешевле.
Поскольку репликация HDFS по умолчанию равна 3, после балансировки данных я не получу больше места, что не является моей проблемой в первую очередь.
Я все еще получаю больше вычислительной мощности?
Я не понимаю, как сопоставить / уменьшить задачи работают против репликации. Как определяется, какие узлы получают работу из другой реплики.
2 ответа
Вам нужно будет перейти к настройке кластера из настройки псевдокластера, и, таким образом, вы действительно получите больше процессивности из своего кластера, добавив больше узлов, то есть вы сможете обрабатывать больше карт и сокращать задачи. Увеличение процессивности, как и следовало ожидать, является линейным.
Репликация будет определять количество копий, которые присутствуют в вашем кластере для каждого блока HDFS. Итак, давайте предположим, что у вас есть файл, который разбит на 6 блоков, для репликации в 3, 18 блоков будут распределены в вашем кластере. Чем больше у вас узлов, тем выше охват, который вы получите, и, следовательно, когда дело доходит до начала фазы вашей карты, между данными нужно будет передавать меньше данных. И чтобы ответить на ваш последний вопрос, Hadoop всегда будет пытаться назначить задачи карты узлам, которые служат датодами для ввода этих задач карты. Таким образом, в этом случае репликации упростят эту задачу, поскольку на выбор будет больше пулов треккеров.
Ваш вопрос немного сбивает с толку. Если вы работаете в псевдораспределенном режиме, то все четыре процесса (JobTracker, NameNode, DataNode, TaskTracker) запускаются в одной (обычно разрабатываемой) системе.
В конфигурации Hadoop xxx-site.xml для псевдораспределения все говорит с localhost, поэтому добавление новых узлов не будет работать.
Если оставить это в стороне, если вы добавляете больше узлов, и на них работают как DataNodes, так и TaskTrackers, то вы получите дополнительное хранилище и загрузку ЦП.
Обратите внимание, что при заполнении HDFS 3-х кратная репликация станет невозможной, когда все меньшие узлы заполнены, поэтому вы начнете получать предупреждения / ошибки.