Привет, Хабр! Сегодня прогоним пару телег про то, что из себя представляют IDP и OCR, в чем их принципиальное различие и на чьей стороне правда (и Smart Engines). Без долгих вступлений - погнали!
Для тех, кто хочет в двух словах ⬇️
Скрытый текстOCR значительно превосходит IDP. И вот почему -
функционирование IDP невозможно без технологий OCR. Никакая интеллектуальная обработка не может происходить без предварительного разпознавания и извлечения данных из документа;
контекстуальный анализ, лежащий в основе IDP, может исправить ошибку OCR, но вредит точности обработки данных. Для пользователей, которым требуется полное соответствие информации в документе и его цифровой копии, это недопустимо;
хорошая OCR работает точно, автономно и НЕ требует участия внешних операторов в процессе обработки изображений документов. Никаких HITL и облаков! А если есть точность, то IDP нечего исправлять;
людям, даже если их запутали в терминах, нужна качественная OCR. Рынок только растет, но сделать свою качественную OCR могут немногие - будем откровенны, единицы. А тем, кто хочет, но не может, остается брать чужую OCR (от гугла или амазона) и продавать в упаковке IDP;
для науки IDP не существует, во всяком случае пока. Это следует из статистики упоминаний OCR и IDP в научных публикациях и докладах.
Подробнее - ниже.
Содержание:
Оптическое распознавание символов или OCR (Optical Character Recognition) - это технология, которая позволяет распознавать и анализировать символы на изображениях и в видеопотоке и переводить его в машиночитаемый редактируемый формат. Иными словами:
OCR - технология “чтения” изображения и извлечения из него текстовой информации
Современные решения OCR могут автоматически улучшать качество изображения, добавлять контрастность или повышать резкость для повышения точности распознавания. Алгоритмы OCR с применением машинного обучения и сверхлегких нейронных сетей идентифицируют и извлекают содержимое документа, а при возникновении сложностей отмечают проблемное место для его последующей оценки человеком.
OCR извлекает информацию из любых источников: со сканов, фотографий или видео, в приложении или браузерном окне и т.д. Причем «читать» и распознавать с посимвольной точностью удается любые, даже откровенно неудачные «вводные»: с искажениями пропорций, заломами, корешками, гербовыми линиями, защитными элементами вроде голографических деталей или гильоширного фона и тому подобного. И все это - быстро и надежно, не доверяя содержание документов третьим лицам. Нашей OCR, к слову, с недавнего времени стала доступна даже верификация документов с целью выявления подделок.
В общем, главная задача, решаемая OCR, - автоматическое точное преобразование символов в текст, который при необходимости можно редактировать. А основное направление работы в этой области сегодня - это распознавание документов, включая распознавание и аутентификацию ID.
Подробнее про историю разработки российских технологий компьютерного зрения, недавно отметивших тридцатилетие, читайте здесь и здесь.
Бурное развитие технологий OCR в нашей стране подтолкнуло программистов к созданию программы, способной сканировать ключевой документ - российский паспорт. Эта возможность открыла дорогу к последующим нововведениям и усовершенствованиям. Про то, как проходило “освоение” паспорта РФ отечественными системами OCR, мы тоже рассказывали вот тут.
Итак, вывод номер один: современная качественная OCR - это быстро, точно и надежно. Словом, круто.
Для всех без исключения отраслей, активно взаимодействующих с документами, будь то банкинг, ритейл, телеком, библиотеки и архивы, медицина или логистика, промышленность и еще много чего, OCR давно стала привычной и неотъемлемой в рабочем процессе технологией. Не верите? - посчитайте сами, что из перечисленного вам знакомо.
Оцифровка текстовых данных: OCR широко используется для преобразования бумажных документов или книг в цифровые файлы, что позволяет легко искать, редактировать и хранить в электронном виде информацию. С этого, к слову, все и начиналось. Бумажный документ можно порвать, потерять или отдать на съедение собаке, а вот виртуальный - вряд ли. Кроме того, оцифровка автоматически означает и повышение доступности, и пользователи это прекрасно понимают. Доказательством тому - кипы оцифрованных и преобразованных в PDF-файлы важных книг, счетов, квитанций и любой другой документации.
Автоматизация бизнес-процессов: OCR дает возможность компаниям автоматизировать ввод данных, минимизируя ручной ввод, а в некоторых задачах и полностью исключая его. Это существенно повышает производительность и снижает риск ошибок. Особенно это важно в сферах, где необходимы точность и конфиденциальность. Итог - вполне реальная выгода за счет экономии на дорогостоящих “ой” и “блин((”.
Быстрое распознавание текста на изображениях: Используется в серверных и мобильных и позволяет распознавать текст (в том числе рукописный) с фото или скана. Эта функция позволяет в считанные мгновения извлекать информацию из банковских выписок, юридических контрактов, счетов и других документов любых размеров, форм и серьезности. Распознал и забыл.
Системы безопасности и контроля: OCR используется в системах контроля доступа, где необходимо не просто считывать данные документов, удостоверяющих личность, но и проверять их на подлинность. Чтобы не пропускать кого не надо и куда не надо, выявлять мошенников и вообще делать наш мир безопаснее. Например, такие решения сегодня эффективно применяются в системах автоматических пропускных пунктов аэропортов, авиа- и жд-кассах и, конечно, в банках.
Теперь к IDP. Здесь все не так однозначно: сформулировать более-менее внятное (и одобренное научным сообществом) определение пока не удалось, увы, никому. IDP расшифровывается как интеллектуальная обработка документов (Intelligent document processing). Если в двух словах, она сочетает OCR с технологиями интерпретации текста, извлечения ценной информации и обработки этой информации подобно человеку. При этом демонстративно игнорирует OCR и подается как новый этап систем распознавания. Если коротко, то:
IDP читает и "думает" над извлеченным текстом, оценивает и дорабатывает его
Некоторые утверждают, что отличительной чертой IDP является использование технологии обработки естественного языка (NLP). Благодаря ей извлеченная информация строится с учетом контекста исходных данных. И чем больше трактовок у отдельного слова или фразы, тем более сложным становится процесс. Например, “замок” - это крепость или дверной механизм? А “машина” - это автомобиль или ЭВМ? Но это еще цветочки, а как насчет “кофейный напиток”, “зерновой продукт”, “газированный напиток”, “молочный продукт”? А “красный свет”?
Здесь зарыта и другая собака. Как было отмечено выше, IDP использует OCR для преобразования текста в машиночитаемый формат (это неотъемлемый этап, без которого не заработает даже супер-IDP), а затем при помощи технологий машинного обучения интерпретирует данные, содержащиеся в документе. Следовательно, чем лучше технология OCR, тем быстрее работать и легче интегрироваться будет и IDP. А вот без использования OCR дальнейшая “интеллектуальная” работа с данными невозможна. Что неудивительно - их же попросту не будет существовать в текстовом варианте!
Верно ли после этого сравнивать OCR и IDP как равноправных, независимых друг от друга соперников - вопрос скорее риторический. Дело в том, что все иллюстративные доказательства того, какую космическую скорость способен развивать IDP в соревновании с абстрактными людочками и наташеньками, абсолютно верны! Только вот благодарить за это надо не IDP, а OCR в ее основе.
Второй вывод: функционирование IDP просто невозможно без технологий OCR. Это, как говорится, база.
Теперь по фактам. OCR - признанная научным сообществом технология компьютерного зрения, которая благополучно используется во всем мире и успешно выполняет четко поставленную задачу: распознает содержание любого документа - текст, графы, таблицы, изображения, схемы, - и его абсолютно точно выдает. Вся обработанная алгоритмами OCR информация становится доступной для редактирования, поиска, анализа и любых других манипуляций, которые можно выполнить с текстовыми данными. Содержание документа в итоговом цифровом варианте никак не отличается от содержания исходника. Зафиксировали.
Теперь к IDP. Это программное решение, которое, как следует из открытых источников, собирает, преобразует и обрабатывает данные из документов на основе ИИ. Причем, как мы уже выяснили, собирать, преобразовывать и обрабатывать информацию здесь не столько уникальная способность IDP как цельной технологии, сколько функционал «вшитых» в IDP алгоритмов OCR. Сегодня IDP любят преподносить как более масштабный инструмент интеллектуальной автоматизации, в котором работа OCR - лишь быстрый начальный этап, на котором в 2024 году не стоит даже и останавливаться. Но это не совсем так.
Все, чем хвалится технология IDP, делает в сущности не сама IDP «целиком», а неотделимая от нее технология OCR. Пойдем по порядку -
Различение видов документов, полей, таблиц и их содержания. Сегодня это сложно назвать даже достижением, не то что ноу-хау. OCR-ка от Cognitive Technologies умела делать это еще три десятилетия назад!
Использование алгоритмов ИИ в работе. Взгляните на ресурсы самых престижных конференций по искусственному интеллекту и вы не найдете там раздела, посвященного IDP. А вот распознавание и анализ документов с помощью OCR - еще как!
(и конечно) Обработка тысяч документов с большой скоростью. Скоростью не хвалится в наше время только ленивый. Но это не более, чем техническая характеристика. Некоторые разработчики сегодня достигают впечатляющих показателей быстродействия даже на мобилках! (да, это про Smart Engines)
Словом, все ключевые продающие базисы IDP на самом деле исполняет OCR. А вот то, что происходит после распознавания текста OCR, - так называемый процессинг - вызывает оправданные сомнения. Раунд.
Резюмируем простыми словами:
IDP равно OCR плюс процессинг. К OCR вопросов нет, к процессингу - полно.
Таким образом, весь раскрученный “уникальный” потенциал IDP относится скорее к надстройке, чем к технологии как таковой. И бог бы с ним! Но только второе слагаемое IDP - процессинг - это порой откровенно опасная для деловой документации вещь, приносящая хаос туда, где необходим строжайший порядок.
Судите сами: если в исходном варианте значимого документа написано: 100 (тысяча), то нужно ли додумывать и исправлять это? Допустим, это действительно простая опечатка, а не намеренное искажение. OCR сохранит ее в цифровой копии и сигнализирует об этом. Что делать дальше - решает человек. А вот поведение IDP предсказать гораздо сложнее: что вам больше нравится - 1000 (тысяча) или 100 (сто)? В какую сторону полетит фантазия ИИ?
Все это контекстное додумывание - пример процессинга. Другой пример - когда из молока получается сыр, творог или сметана. Нам кажется, что в агропромышленности он уместен и полезен, а вот в области технологий может нехило навредить. Не согласны с примером о молоке? А если речь о хрестоматийной фразе казнить нельзя помиловать? Где здесь будет поставлена запятая и, главное, нужна ли она вообще, если в исходнике ее нет?
В практической плоскости эта ситуация представляет определенную угрозу для заказчика, желающего получить в цифровом виде точные данные исходника. И в сущности не важно, идет ли речь о паспорте РФ, кредитном договоре, счет-фактуре или рукописном заявлении на отпуск. Порой жизненно важные для клиента вещи кроются именно в неочевидных деталях, а их во всем нашем многообразии документов сегодня столько, что интерпретировать и «исправлять» можно до бесконечности. Только вот нужно ли оно пользователю в действительности?
Отсюда третий вывод: хотите получать все данные в цифре целыми и невредимыми - вам нужна именно OCR.
Здесь может возникнуть резонный вопрос: почему же вокруг IDP в последнее время столько шумихи? К чему все эти гипотетические кейсы и надуманные сравнения, неизменным победителем из которых - о чудо! - выходит IDP? Ответ прозаичен: это не более чем сила маркетинга. Цитируя классику: невозможно убедить потребителей купить твою гренку за шесть долларов. А вот если всего лишь немного поиграть с названием и выставить на продажу крутон - запросто!
Взглянем на ситуацию с позиций теории маркетинга. OCR занимает высокую долю на рынке, но темп роста объема продаж технологии замедлился. По матрице БКГ, перед нами классическая дойная корова (это придумали не мы, не подумайте). Вот что пишет по этому поводу Википедия:
Высокая доля на рынке, но низкий темп роста объема продаж. «Дойных коров» необходимо беречь и максимально контролировать. Их привлекательность объясняется тем, что они не требуют дополнительных инвестиций и сами при этом обеспечивают хороший денежный доход.
Чтобы качественно изменить ситуацию и придать новый импульс продукту, его решили просто-напросто переупаковать. Только вот вскрылся один нюанс: действительно качественный OCR - это дорого. А вот для IDP нужно совсем немного: любая бесплатная распознавалка, общедоступные модели обработки текста и 1-2 человека, чтобы за всем этим приглядывать. Вуаля! Можно кричать налево и направо, что научился решать суперзадачу. Вот только так ли это будет надежно, удобно и подконтрольно клиенту?
Здесь же отметим, что вопреки прогнозам OCR переживает пору расцвета: для OCR придумана новая математика - сверхлегкие сети, 4,6-битные сети, биполярные морфологические сети и так далее. Объем мирового рынка оптического распознавания символов в 2023 году оценивался в 10,45 млрд долларов США. По прогнозам, за ближайшие 8 лет (в 2032 году) его объем достигнет отметки в 43,69 млрд долларов США, а темпы роста составят 17,23% в течение прогнозного периода. Глобальный сдвиг в сторону автоматизации и оцифровки во всех отраслях промышленности стимулирует рынок OCR. В общем, назвать технологию “устаревшей” язык уж точно не поворачивается. Свои OCR сегодня развивают Google, Apple, Huawei, Amazon и, конечно, ваши покорные слуги.
Предложений IDP сильно больше - это десятки ИИ компаний, даже если отбросить число инхаус-решений. Да, IDP могут сделать ИТ-специалисты практически любой компании (поверьте, с OCR от Smart Engines IDP будет действительно летать). Но кто продает IDP? Те, кто понял, что открыто продавать бесплатную OCR от Google или Amazon очень сложно. А вот под видом IDP можно, причем очень даже неплохо! Так и живем.
Очередной вывод: если вы хотите надежность и результативность, не дайте себя запутать и выбирайте качественную OCR. Берегите себя и своих близких.
Для пущей иллюстративности обратимся к науке. Принципам функционирования OCR посвящаются книги, научные конференции, доклады и пр. В ходе подготовки этого текста мы специально прошерстили сборники самой авторитетной международной конференции по анализу и распознаванию документов ICDAR за прошлый год. Мы искали (и считали) количество упоминаний IDP и OCR.
Получились следующие результаты:
В 6 опубликованных сборниках OCR упоминается (хотя бы один раз) примерно в 97 статьях, IDP – в 3 статьях. Касаемо Workshops: OCR – в 19 статьях, IDP не упоминается вообще.
Еще раз подчеркнем: на ICDAR попадает все самое важное из мира распознавания. Казалось бы, все преимущества IDP должны быть оценены по достоинству или как минимум замечены, но увы. Стоит ли здесь ради наглядности вести счет? Думается, все ясно и так.
Технологии OCR повсеместно дорабатываются, обновляются, адаптируются под конкретные нужды конкретного заказчика и - совершенно благополучно, стабильно и автономно работают. Высокая точность, скорость обработки, надежность, легкость интеграции и главное - предсказуемость OCR научно подтверждены и неоспоримы. А можно ли с уверенностью сказать все то же самое в отношении IDP? Во всяком случае на сегодняшнем этапе - едва ли.
Все вполне очевидно - в этом наш финальный вывод. Drop the mic.
И да, - мы в Smart Engines создаем системы распознавания и анализа документов на базе собственной OCR.
P.S. Есть вопросы, предложения или возражения? Ждем вас в комментариях!