Как повысить эффективность параллельного чтения GNU из сжатого потока?

Question

Как повысить эффективность параллельного чтения GNU из сжатого потока?

Является ли другой вопрос расширенным по сравнению с предыдущим [1]

У меня есть сжатый файл и поток их для подачи в программу Python, например,

bzcat data.bz2 | parallel --no-notice -j16 --pipe python parse.py > result.txt

Parse.py может читать из стандартного ввода и печатать в стандартный вывод

Мой экземпляр ec2 состоит из 16 ядер, но из верхней команды он показывает только среднюю загрузку от 3 до 4.

От psЯ вижу много таких вещей, как..

sh -c 'dd bs=1 count=1 of=/tmp/7D_YxccfY7.chr 2>/dev/null';

Я знаю, что могу улучшить, используя -a in.txtчтобы улучшить производительность, но в моем случае я смотрю потоковое видео с bz2 (я не могу точно определить его, поскольку у меня недостаточно места на диске)

Как повысить эффективность для моего случая?

[1] Gnu параллельно не использует весь процессор

2

unix unix-shell parallel-computing

Источник

Ryan 28 май '14 в 14:42

1 ответ

Другие вопросы по тегам unix unix-shell parallel-computing

Ole Tange 28 май '14 в 15:37 2014-05-28 15:37 · Answer 1 · 2014-05-28 15:37

Увеличьте размер блока:

--block 100m

0

Источник

Ole Tange 28 май '14 в 15:37