Самый быстрый способ импортировать файлы в Spark?

Question

Самый быстрый способ импортировать файлы в Spark?

Я экспериментирую с Spark 3.0.1 и очень впечатлен производительностью Spark SQL при обработке ГБ данных.

Я пытаюсь понять, как лучше всего импортировать несколько файлов JSON в фрейм данных Spark перед выполнением аналитических запросов.

Прямо сейчас я попытался импортировать около 1500 файлов .gz, каждый из которых содержит структурированный файл json. Эти файлы хранятся в ведре S3, и у меня есть конвейер данных, который заполняет это ведро каждые x времени. Мы говорим о полном размере 5 ГБ для файлов размером 1500 ГБ, в несжатом виде это около 60/70 ГБ (полный набор данных).

Импорт этих файлов из S3 занимает почти 3-4 минуты, а SQL-запросы занимают всего несколько секунд.

Узким местом здесь явно является S3.

Каким был бы идеальный подход для ускорения импорта этих файлов gz?

Любое предложение будет чрезвычайно оценено.

Спасибо!

1

storage amazon-s3 amazon-elb apache-spark amazon-emr

Источник

int 2Eh 31 дек '20 в 15:29

0 ответов

Другие вопросы по тегам storage amazon-s3 amazon-elb apache-spark amazon-emr