OCR — это технология распознавания текста с изображений и сканов документов. Она преобразует бумажные документы, PDF-файлы, сканы и фотографии в машиночитаемый текст. Технология используется для автоматизации ввода данных, обработки счетов, договоров, заявлений и архивных документов.
Если говорить простыми словами, OCR отвечает на вопрос «что написано в документе», преобразуя изображение в текст. Однако сама технология не понимает смысл распознанных данных и не принимает решений.
OCR остается базовым элементом интеллектуальной автоматизации, поскольку большинство бизнес-процессов по-прежнему начинается с документов. Современные OCR-системы работают с:
• PDF и сканами;
• рукописным текстом;
• таблицами;
• многостраничными документами;
• изображениями низкого качества.
OCR часто используется как первый этап автоматизации документооборота. После распознавания текста данные могут передаваться в IDP-системы, ERP, CRM или программных роботов RPA. Например:
• OCR извлекает текст;
• IDP понимает структуру документа;
• RPA выполняет действия в учетных системах.