Влияет ли изменение коэффициента репликации HDFS по умолчанию на 3 на производительность сопоставителя?

У меня есть кластер HDFS/Hadoop и я смотрю в настройку.

Интересно, если изменение коэффициента репликации HDFS по умолчанию (по умолчанию:3) на что-то большее, улучшит производительность картографа за счет очевидного увеличения используемого дискового пространства?

Я полагаю, что если данные уже реплицированы на большее количество узлов, задания маппера могут выполняться параллельно на нескольких узлах без потоковой передачи / копирования данных?

Кто-нибудь есть какие-либо мнения?

1 ответ

Концептуально ваши выводы верны: с блоками, доступными в большем количестве мест, планировщик имеет больше свободы для распределения локальных задач узла (на той же машине, что и входной блок), и меньше данных будет передаваться в потоке.

Однако, прежде чем сделать этот шаг, уверены ли вы, что потоковая передача блоков является источником замедления? Если небольшое количество узлов HDFS не содержит блоков, необходимых вашей рабочей нагрузке, увеличение коэффициента репликации на самом деле не поможет. Другими словами, если у вас уже есть хорошо сбалансированный кластер с точки зрения распределения соответствующих блоков, размещение этих блоков на дополнительных узлах не сильно ускорит выполнение, потому что потоковое вещание не является вашим узким местом.

Одной из быстрых проверок будет локальная статистика узла против стойки в веб-интерфейсе JobTracker для данной работы.

Если потоковое вещание действительно является замедлением, узким местом является дисковый ввод-вывод или сетевой ввод-вывод? Некоторыми альтернативами увеличению репликации могут быть повышение (4), а затем понижение (3) репликации блоков, что должно обеспечить более равномерное распределение по кластеру. ИЛИ, выгрузите и перезагрузите файлы.

Опишите подробнее, почему вы думаете, что это узкое место, и, возможно, есть другие подходящие решения.

Другие вопросы по тегам