Какие-либо инструменты для автоматизации распознавания отсканированных PDF-файлов аналогично функции распознавания в Acrobat?

Question

Какие-либо инструменты для автоматизации распознавания отсканированных PDF-файлов аналогично функции распознавания в Acrobat?

Открытый источник предпочтителен, но не обязателен.

У меня есть Adobe Acrobat 8, и мне действительно нравится функция оптического распознавания текста, которая может по существу поместить невидимый слой текста оптического распознавания текста поверх отсканированного документа. Таким образом, то, что вы видите на экране, является оригинальным отсканированным документом, но результат доступен для поиска.

Я ищу способ автоматизировать этот процесс. В настоящее время у меня есть несколько сценариев, которые мы используем для обработки и архивирования отсканированных файлов, и я ищу что-то, что можно подключить прямо к этому пакетному процессу, чтобы сделать OCR способом, аналогичным тому, что я могу сделать с Acrobat.

Все предложения приветствуются, спасибо!

10

pdf document-management ocr

Источник

Boden 14 авг '09 в 18:09

3 ответа

Решение

Вы смотрели на WatchOCR? Вы можете скачать его с http://www.watchocr.com/ Это бесплатный OCR-сервер с открытым исходным кодом, который преобразует PDF-файлы только из изображений в текстовые PDF-файлы с возможностью поиска из просматриваемой папки или общего сетевого ресурса.

1

Источник

rlangner 06 июл '10 в 12:40

Мне нравятся звуки ответа Xeon, хотя OCRopus звучит очень весело.

0

Источник

Kara Marfia 14 авг '09 в 18:26

Другие вопросы по тегам pdf document-management ocr

xeon 14 авг '09 в 18:19 2009-08-14 18:19 · Accepted Answer · 2009-08-14 18:19

Я реализовал это в проекте архивирования документов компании. Отсканированный файл представляет собой TIF-файл (одна страница). Затем с помощью Cuneiform для создания файла hocr одного TIF. Затем с помощью hocr2pdf выведите файл PDF. Если несколько страниц сканирования, я использую gs, чтобы объединить PDF-файлы в один PDF-документ. Работает очень хорошо, OCR достаточно хорош для наших нужд и доступен для поиска в любой программе просмотра PDF.