imagemagic: извлечение растровых изображений как есть из PDF

Я знаю, как использовать imagemagick's convert для рендеринга PDF и генерации новых изображений со страницы PDF, включая как растровые изображения, так и векторные изображения, отображаемые с требуемым разрешением.

Но проблема с этим подходом состоит в том, что растровые изображения повторно выбираются с новым разрешением. То, что я хотел бы сделать, это извлечь растровые изображения в точности так, как они хранятся в PDF.

Я хочу, чтобы это улучшило контраст на отсканированных PDF-файлах, где PDF-файлы представляют собой не что иное, как архив растровых изображений. Например, http://www.datamath.net/Manuals/TI-66_Manual_US.pdf

Я бы хотел, чтобы самым первым шагом было просто извлечь как можно более оригинальные растровые изображения из PDF.

Примечание: я ограничиваю это для imagemagick, чтобы решение было переносимым. Но если вы знаете, что то же самое может быть сделано с такими же обычными инструментами Unix, как imagemagick, пожалуйста, поделитесь!

1 ответ

(не стесняйтесь добавлять ответы, если есть способ использовать imagemagick)

Нашел [0] решение с использованием poppler, которое, я думаю, так же популярно, как imagemagick

pdfimages -all -p TI-66_Manual_US.pdf ./

Выше будет извлекать все форматы изображений из PDF в локальный каталог и добавлять номера страниц. По какой-то причине он добавляет "." перед именем файла, так что просто запустите...

for f in .*jpg; do mv $f a$f; done

... добавить "а" перед точкой, чтобы с ними было легче работать.

[0] источник: https://www.cyberciti.biz/faq/easily-extract-images-from-pdf-file/

Другие вопросы по тегам