Самый быстрый способ импортировать файлы в Spark?
Я экспериментирую с Spark 3.0.1 и очень впечатлен производительностью Spark SQL при обработке ГБ данных.
Я пытаюсь понять, как лучше всего импортировать несколько файлов JSON в фрейм данных Spark перед выполнением аналитических запросов.
Прямо сейчас я попытался импортировать около 1500 файлов .gz, каждый из которых содержит структурированный файл json. Эти файлы хранятся в ведре S3, и у меня есть конвейер данных, который заполняет это ведро каждые x времени. Мы говорим о полном размере 5 ГБ для файлов размером 1500 ГБ, в несжатом виде это около 60/70 ГБ (полный набор данных).
Импорт этих файлов из S3 занимает почти 3-4 минуты, а SQL-запросы занимают всего несколько секунд.
Узким местом здесь явно является S3.
Каким был бы идеальный подход для ускорения импорта этих файлов gz?
Любое предложение будет чрезвычайно оценено.
Спасибо!