imagemagic: извлечение растровых изображений как есть из PDF
Я знаю, как использовать imagemagick's convert
для рендеринга PDF и генерации новых изображений со страницы PDF, включая как растровые изображения, так и векторные изображения, отображаемые с требуемым разрешением.
Но проблема с этим подходом состоит в том, что растровые изображения повторно выбираются с новым разрешением. То, что я хотел бы сделать, это извлечь растровые изображения в точности так, как они хранятся в PDF.
Я хочу, чтобы это улучшило контраст на отсканированных PDF-файлах, где PDF-файлы представляют собой не что иное, как архив растровых изображений. Например, http://www.datamath.net/Manuals/TI-66_Manual_US.pdf
Я бы хотел, чтобы самым первым шагом было просто извлечь как можно более оригинальные растровые изображения из PDF.
Примечание: я ограничиваю это для imagemagick, чтобы решение было переносимым. Но если вы знаете, что то же самое может быть сделано с такими же обычными инструментами Unix, как imagemagick, пожалуйста, поделитесь!
1 ответ
(не стесняйтесь добавлять ответы, если есть способ использовать imagemagick)
Нашел [0] решение с использованием poppler, которое, я думаю, так же популярно, как imagemagick
pdfimages -all -p TI-66_Manual_US.pdf ./
Выше будет извлекать все форматы изображений из PDF в локальный каталог и добавлять номера страниц. По какой-то причине он добавляет "." перед именем файла, так что просто запустите...
for f in .*jpg; do mv $f a$f; done
... добавить "а" перед точкой, чтобы с ними было легче работать.
[0] источник: https://www.cyberciti.biz/faq/easily-extract-images-from-pdf-file/