Как повысить эффективность параллельного чтения GNU из сжатого потока?

Является ли другой вопрос расширенным по сравнению с предыдущим [1]

У меня есть сжатый файл и поток их для подачи в программу Python, например,

bzcat data.bz2 | parallel --no-notice -j16 --pipe python parse.py > result.txt

Parse.py может читать из стандартного ввода и печатать в стандартный вывод

Мой экземпляр ec2 состоит из 16 ядер, но из верхней команды он показывает только среднюю загрузку от 3 до 4.

От psЯ вижу много таких вещей, как..

sh -c 'dd bs=1 count=1 of=/tmp/7D_YxccfY7.chr 2>/dev/null';       

Я знаю, что могу улучшить, используя -a in.txtчтобы улучшить производительность, но в моем случае я смотрю потоковое видео с bz2 (я не могу точно определить его, поскольку у меня недостаточно места на диске)

Как повысить эффективность для моего случая?

[1] Gnu параллельно не использует весь процессор

1 ответ

Увеличьте размер блока:

--block 100m
Другие вопросы по тегам