24.10.2013 10:28
Новости.
Просмотров всего: 6369; сегодня: 1.

Искусственный интеллект научился понимать сложные документы

Компания Cognitive Technologies объявила о создании первой в России системы, обеспечивающей промышленное качество ввода сложных типов документов, к которым главным образом относится первичная бухгалтерская документация (счета фактуры, товарно - транспортные накладные и т.д.). Следует отметить, что это кардинально иные технологии, нежели системы распознавания символов, в их традиционном понимании. «Обычные OCR-системы на реальных документах могут дать точность распознавания не более 50% полностью правильных строк таблицы, что говорит об их низкой пригодности для промышленного применения», рассказывает руководитель лаборатории систем массового ввода документов, к.т.н. Владимир Арлазаров. Качество ввода документов такого класса характеризуется двумя параметрами: процентом распознавания табличных строк, а не отдельных символов и точности классификации товарных наименований. «Порогом для промышленного применения распознавания, в среднем, считается правильный автоматический ввод 75% позиций, и мы в своем решении превзошли ее на несколько процентов. Итоговым результатом ввода таких документов является информация, разложенная с высокой точностью по ячейкам внутренней базы данных заказчика, о наименовании товаров, их стоимости, поставщике, плательщике и т.д., десятки и сотни позиций. Понятно, что одна единственная ошибка сразу сводит весь результат на нет», комментирует Арлазаров.

Автоматическая обработка сложных типов документов, доля которых в общем объеме бухгалтерского документооборота по разным оценкам, составляет порядка 50%-60%, является одной из сложных задач искусственного интеллекта. Причина состоит в том, что в отличие от многих других типов бизнес - документов, например, платежных поручений, страховых анкет, налоговых деклараций и т.п., до настоящего времени не существует единых правил, регламентирующих эти документы и определяющих расположение их элементов.

Иными словами, однотипная информация (данные о получателе, банковские реквизиты и т.д.) может в разных документах может произвольно «плавать» по странице и даже размещаться на разных листах, в случае многостраничных документов. Кроме того, сама форма документов этого класса также является, во многом, произвольной и может варьироваться от формата А5 до А4, допуская при этом еще и различные варианты ориентации (альбомная, портретная). Качество печати документов во многих случаях также оставляет желать лучшего.

Таким образом, система распознавания сложных документов фактически должна как человек понимать, к какому из признаков относится напечатанная в разных частях документа информация. Например, является ли напечатанное число одним из реквизитов платежного документа, или номером отгрузки, или суммой оплаты или какой-либо другой характеристикой.

По словам Владимира Арлазарова, «Человек распознает информацию на основе имеющихся у него данных и приобретенных с опытом правил соответствия одних элементов другим. Мы в нашей системе реализуем аналогичные механизмы понимания, наполнив «мозг» системы необходимыми данными и установив правила соответствия. Нами используются различные смысловые и семантические правила».

В итоге задача понимания сводится к определению соответствия каждого из элементов документа (например, адреса грузополучателя) - определенной ячейке в базе данных, куда эта информация (адрес грузополучателя) должна быть помещена. В этом смысле наиболее сложными для обработки являются разделы документа, представляющие сплошной текст в котором «интеллект» системы должен вычленить элементы, относящиеся к различным признакам.

Выделить в тексте к чему какая информация (адрес покупателя, поставщика, реквизиты плательщика и т.д.) относится, сложно даже человеку

Другой проблемой, с которой столкнулись разработчики, стало определение наименований товаров в тексте документа. Сложность состоит в том, что каждый из поставщиков использует, как правило, свой вариант написания каждого из наименований. Например, «Батон нарез. упак.» может быть «Н. у. батон завод №2» или «Хлеб нар. уп. » и т.д. Таким образом, у одной и той же товарной позиции может быть такое количество вариантов написания, которое, по – сути, способен выдумать человек.

С математической точки зрения идентификация или классификация товарной позиции представляет собой определение соответствия между товарной позицией и номером ее кода в базе данных заказчика, который, при этом, на документах не печатается. По - этому, для определения такого соответствия используется смысловой анализ текста.

Человек в таких случаях проводит идентификацию на основе просмотра всего документа и сравнения каждой из товарных позиций друг с другом. При этом он определяет в одну и ту же группу позиции, относящиеся к одному товару. По схожему принципу работает и интеллектуальная программа. При этом она научилась разбираться с однозначностями типа: 0,5 кг, полкило,500 грамм, пятьсот грамм и полбуханки.

Наконец, еще одним препятствием на пути промышленной обработки сложных документов было распознавание в документе печатей, подписей и отделениях их от служебных пометок. Дело в том, что подписи и пометки во многих случаях отличить практически не возможно.

Решается задача только с использованием дополнительных данных, имеющихся в документе. Например, подпись сравнивается с ее аналогом в других позициях или «читаются» близлежащие данные (Ф.И.О., наличие печати и т. д.), по которым графический элемент может быть идентифицирован как подпись и т.д.

Такое решение предназначено в первую очередь для крупных торговых сетей. По словам Президента Cognitive Technologies Ольги Усковой «Наша компания вложила в разработку технологии понимания сложных типов документов за последние 5 лет более 70 млн. рублей. Мы непрерывно ведем исследования в сферах, результаты в которых могут быть востребованы через 5, 10 и более лет. Так, работы в направлении когнитивных технологий в понимании документов мы инициировали еще в середине 90-х, а реальный спрос на него возник только в последние годы, при появлении соответствующей аппаратной базы и организационного контура. Сегодня мы ведем исследования в области машинного зрения, bigdata, меметических вычислений (модели передачи информации, рассматривающие идеи как единицы информации, по аналогии с геном в генетике). Когда эти направления станут востребованными, мы уже будем в числе их лидеров».

Информация о компании Cognitive Technologies

Компания Cognitive Technologies – технологический лидер на рынке систем корпоративной автоматизации, распознавания, ввода и обработки документов. С 1993 года компания проводит системные научные исследования и разработки, позволяющие ей использовать в своих продуктах и решениях наиболее современные и мощные технологии, многие из которых не имеют аналогов в мире.

Более 15 лет одним из основных направлений деятельности компании является разработка и внедрение систем автоматизации бизнес-процессов, электронного документооборота, а также электронных архивов.

За этот период было реализовано свыше 600 крупных проектов более чем на 1 млн. лицензий каждый.

Кроме того, компания Cognitive Technologies известна как ведущий российский разработчик систем оптического распознавания текстов и промышленного ввода документов, а также как разработчик систем электронных закупок.


Ньюсмейкер: Cognitive Technologies — 214 публикаций

Интересно:

В строю бессмертных: снайпер Ивченко и его последний бой за Родину
07.06.2026 11:39 Персоны
В строю бессмертных: снайпер Ивченко и его последний бой за Родину
В славной летописи Великой Отечественной войны, написанной кровью и мужеством советских воинов, особое место занимают подвиги гвардейцев-героев. Их имена, как яркие звёзды, озаряют путь грядущим поколениям, служа примером беззаветной преданности Социалистической Родине, народу и Коммунистической партии. В этом бессмертном строю — гвардии ефрейтор Михаил Лаврентьевич Ивченко.  Уроженец деревни Тимонино Красноярского края, он, как и миллионы его сверстников, вышел из трудовой крестьянской семьи. Получив начальное образование, Михаил Ивченко добросовестно трудился в колхозе, пройдя путь от возчика до бригадира, воспитывая в себе качества сознательного строителя социалистического общества. В 1940 году по призыву Родины он был направлен для прохождения службы в стрелковые части, дислоцированные на Крайнем Севере. С первых дней вероломного нападения гитлеровских захватчиков товарищ...
В Москве подготовили культурную программу к Дню русского языка
05.06.2026 09:05 Мероприятия
В Москве подготовили культурную программу к Дню русского языка
Культурные учреждения столицы подготовили программу ко Дню русского языка, который отмечается 6 июня, в день рождения поэта Александра Пушкина. В нее войдут концерты, лекции, презентации книг, экскурсии, викторины и многое другое. Об этом сообщила Наталья Сергунина, заместитель Мэра Москвы. «В городских музеях, библиотеках, парках, усадьбах и на других площадках пройдет больше 300 мероприятий. Москвичи и туристы смогут посмотреть спектакли на основе произведений Александра Сергеевича, их экранизации разных лет, узнать больше о его жизни и творчестве», — рассказала Наталья Сергунина. 6 июня в течение всего дня в Государственном музее А.С. Пушкина будут проводить экскурсии для всех желающих. Посетителям расскажут о культуре и быте XIX века, истории создания журнала «Современник», покажут редкие издания книг, портреты известных людей того времени и подлинные...
«Выберу.ру»: рейтинг лучших комбо-вкладов за май 2026 года
04.06.2026 18:43 Аналитика
«Выберу.ру»: рейтинг лучших комбо-вкладов за май 2026 года
К началу лета ставкопад обошёл стороной инвестиционные вклады, когда часть сбережений клиента в инвестпродукте (в Программе долгосрочных сбережений — ПДС, Накопительном страховании жизни — НСЖ). Другая — под повышенный процент на депозите. «Выберу.ру» составил рейтинг банков с максимально доходными для вкладчиков комбинированными сберегательными инструментами. В нашей топ-подборке комбо-вкладов — самые выгодные варианты для вложений. В ходе исследования эксперты «Выберу.ру» сравнили параметры комбинированных продуктов в линейках российских банков. В результате анализа и расчётов был подготовлен майский рейтинг максимально доходных программ «Лучшие комбо-вклады с НСЖ и ПДС». Банки предлагают такие продукты вместе со своими партнёрами негосударственными пенсионными фондами (НФП) и страховыми компаниями. Методика расчетов, которую «Выберу.ру» применил для оценки комбо-вкладов, позволила...
В Москве устроили праздник, где нет «обычных» и «особенных» детей
04.06.2026 15:49 Мероприятия
В Москве устроили праздник, где нет «обычных» и «особенных» детей
В День защиты детей сцена Дворца творчества детей и молодёжи имени А. П. Гайдара в Москве превратилась в большое путешествие по России. Благотворительный концерт, который провела АНО «Добро под ключ», собрал ребят из московских детских лагерей и детей с ограниченными возможностями здоровья — и за один день они успели заглянуть в Воронежскую, Белгородскую, Курскую, Калужскую губернии, не выходя из парка, где состоялось мероприятие. Праздник проходил в Год народного единства и приурочен к самому светлому летнему дню - Дню защиты детей. А задумка была простой и одновременно непростой в исполнении: не разводить гостей по категориям, а собрать всех вместе. Поэтому артисты выступали не «для зала» — они вовлекали его, превращая зрителей в полноправных участников. Провожатым в этом путешествии стал весёлый Пират из анимационного агентства «Карамель» — герой, который объездил полмира, собирая...
Историю русского зарубежья представят в Чите
03.06.2026 23:11 Мероприятия
Историю русского зарубежья представят в Чите
В России расширяется крупнейший всероссийский проект, посвященный наследию русского зарубежья: в 2026 году Всероссийский фестиваль «Русское зарубежье: города и лица» пройдет в пяти регионах страны, а первой площадкой сезона станет Чита — город, где расскажут о судьбах российских соотечественников в Маньчжурии и Трехречье. С 12 по 14 июня здесь пройдут выставки, спектакли, концерты и лекции, посвященные судьбам соотечественников, повлиявших на мировую культуру, науку и искусство. К началу этого сезона подготовлен сюрприз для всех любителей русской классической музыки — публикация редких русских романсов XX века на цифровых музыкальных платформах для бесплатного прослушивания. Проект, стартовавший в 2021 году, за пять лет объединил около 400 тысяч посетителей в 25 городах России — от Владивостока и Екатеринбурга до Великого Новгорода, Хабаровска и Кирова. В 2026 году фестиваль...