Возможно ли выполнить распознавание текста в Linux?
Мне нужен сервер на базе Linux, который можно настроить для получения изображений и их преобразования в текст, который будет вставлен в базу данных. Возможно ли это, особенно через API, чтобы организация могла взаимодействовать со службой в случае необходимости?
4 ответа
Тезеракт кажется лучшим. http://code.google.com/p/tesseract-ocr/
Отзывы, кажется, говорят, что это единственный, который бьет перепечатывание вещей. http://www.linux.com/archive/feature/138511 http://www.linux.com/archive/feed/57222
Разве люди не гуглили какие-либо деньги? 5 минут чтения того, что я нашел, используя "linux ocr" в качестве условий поиска.
Вы смотрели на WatchOCR? Это бесплатный OCR-сервер с открытым исходным кодом, который преобразует PDF-файлы только с изображениями в текстовые PDF-файлы с возможностью поиска из просматриваемой папки или общего сетевого ресурса.
У меня был проект, который требовал OCR. Вы можете использовать GOCR для распознавания текста. Для преобразования в формат изображения pbm вы можете использовать djpeg. Если вам нужно интегрироваться с веб-интерфейсом, вы можете вызвать команду преобразования /ocr из PHP, а также отсюда, чтобы реализовать сохранение БД.
Я бы настроил очередь сообщений и отправил ей задачи для обработки. Все, что вам действительно нужно сделать, это загрузить файл в виде изображения на общую платформу хранения, возможно, GlusterFS или аналогичную, а затем вставить имя файла и путь в очередь сообщений для обработки. Все, что вам нужно сделать, - это настроить процесс для прослушивания очереди и запустить gocr, передавая выходные данные в вашу базу данных.
Легко.. В теории.;)