Как повысить эффективность параллельного чтения GNU из сжатого потока?
Является ли другой вопрос расширенным по сравнению с предыдущим [1]
У меня есть сжатый файл и поток их для подачи в программу Python, например,
bzcat data.bz2 | parallel --no-notice -j16 --pipe python parse.py > result.txt
Parse.py может читать из стандартного ввода и печатать в стандартный вывод
Мой экземпляр ec2 состоит из 16 ядер, но из верхней команды он показывает только среднюю загрузку от 3 до 4.
От ps
Я вижу много таких вещей, как..
sh -c 'dd bs=1 count=1 of=/tmp/7D_YxccfY7.chr 2>/dev/null';
Я знаю, что могу улучшить, используя -a in.txt
чтобы улучшить производительность, но в моем случае я смотрю потоковое видео с bz2 (я не могу точно определить его, поскольку у меня недостаточно места на диске)
Как повысить эффективность для моего случая?