Самый быстрый способ импортировать файлы в Spark?

Я экспериментирую с Spark 3.0.1 и очень впечатлен производительностью Spark SQL при обработке ГБ данных.

Я пытаюсь понять, как лучше всего импортировать несколько файлов JSON в фрейм данных Spark перед выполнением аналитических запросов.

Прямо сейчас я попытался импортировать около 1500 файлов .gz, каждый из которых содержит структурированный файл json. Эти файлы хранятся в ведре S3, и у меня есть конвейер данных, который заполняет это ведро каждые x времени. Мы говорим о полном размере 5 ГБ для файлов размером 1500 ГБ, в несжатом виде это около 60/70 ГБ (полный набор данных).

Импорт этих файлов из S3 занимает почти 3-4 минуты, а SQL-запросы занимают всего несколько секунд.

Узким местом здесь явно является S3.

Каким был бы идеальный подход для ускорения импорта этих файлов gz?

Любое предложение будет чрезвычайно оценено.

Спасибо!

0 ответов

Другие вопросы по тегам