Какие-либо инструменты для автоматизации распознавания отсканированных PDF-файлов аналогично функции распознавания в Acrobat?

Открытый источник предпочтителен, но не обязателен.

У меня есть Adobe Acrobat 8, и мне действительно нравится функция оптического распознавания текста, которая может по существу поместить невидимый слой текста оптического распознавания текста поверх отсканированного документа. Таким образом, то, что вы видите на экране, является оригинальным отсканированным документом, но результат доступен для поиска.

Я ищу способ автоматизировать этот процесс. В настоящее время у меня есть несколько сценариев, которые мы используем для обработки и архивирования отсканированных файлов, и я ищу что-то, что можно подключить прямо к этому пакетному процессу, чтобы сделать OCR способом, аналогичным тому, что я могу сделать с Acrobat.

Все предложения приветствуются, спасибо!

3 ответа

Решение

Я реализовал это в проекте архивирования документов компании. Отсканированный файл представляет собой TIF-файл (одна страница). Затем с помощью Cuneiform для создания файла hocr одного TIF. Затем с помощью hocr2pdf выведите файл PDF. Если несколько страниц сканирования, я использую gs, чтобы объединить PDF-файлы в один PDF-документ. Работает очень хорошо, OCR достаточно хорош для наших нужд и доступен для поиска в любой программе просмотра PDF.

Вы смотрели на WatchOCR? Вы можете скачать его с http://www.watchocr.com/ Это бесплатный OCR-сервер с открытым исходным кодом, который преобразует PDF-файлы только из изображений в текстовые PDF-файлы с возможностью поиска из просматриваемой папки или общего сетевого ресурса.

Мне нравятся звуки ответа Xeon, хотя OCRopus звучит очень весело.

Другие вопросы по тегам