14.12.2007 00:00
Новости.
Просмотров всего: 5600; сегодня: 1.

Cognitive Technologies открывает коды программы Cuneiform

Компания Cognitive Technologies анонсирует разработки в области Open Source. Данное направление в течение последних двух лет переживает небывалый подъем во всем мире и преимущества его очевидны:

- любой желающий может бесплатно получить программный продукт;

- любой желающий может доработать продукт в соответствии со своими желаниями и требованиями, благодаря тому, что коды программы открыты.

Как свидетельствует мировой опыт развития Open Source - решений, данные условия предоставляют широкие возможности для масштабного развития программных продуктов. Пример Linux, Apache, Open Office и других продуктов не дает повода в этом усомниться.

Кроме того, как коммерческая компания, Cognitive Technologies видит реальную выгоду от развития направления. OCR – технологии составляют незначительный сегмент ИТ-рынка, но для того, чтобы его активно развивать требуется довольно значительный производственный ресурс. Еще в 1995 году Cognitive Technologies сделал стратегическое заявление о том, что OCR-системы уже достигли промышленного качества распознавания. Дальнейшее повышение точности распознавания не является первостепенной задачей (две или четыре ошибки сделает система на пяти листах не столь принципиально). В дальнейшем они будут трансформироваться в утилиты к «большим системам». К этому, в итоге, и была сведена деятельность компании в части распознавания печатных текстов. (Наоборот, в области ICR и IDR наша компания активно занималась и занимается исследованиями и разработками, связанными с распознаванием сложных документов, форм документов, технологиями «понимания» документов и т.д.)

Сегодня уже привычно видеть модули распознавания в системах электронного документооборота, графических и текстовых редакторах. Не секрет, что в ближайшее время возможность распознавания появится и в поисковых машинах. Стоит сказать, что за период с 2000 года никаких революционных изменений в технологиях OCR не произошло. Развитие данных систем шло, главным образом, по пути совершенствования их сервисной стороны и расширения списка дополнительных возможностей (распознавание новых языков и т.д.) (Отметим, что в этот период времени серьезные результаты были получены в сферах forms processing и «понимания» документов).

Весь период разработки OCR CuneiForm, по оценке Cognitive Technologies, составил порядка 470 человеко-лет.

Наш опыт в проектах Open Source

Таким образом, по мнению Cognitive Technologies подключение ресурса «сообщества» в разработки в сфере OCR под руководством ученых-консультантов и менеджеров Cognitive Technologies должно принести значимый эффект. Отметим, что Cognitive Technologies уже имеет значительный научно-производственный опыт работ по направлению Open Source. В течение двух последних лет компания является исполнителем проекта ФЦП «Электронная Россия» по созданию Open Source-решений для органов государственной власти России. Кроме того, несколько месяцев назад Cognitive Technologies начала Open Source проект по распознаванию марок автомобилей, который реализуется с участием студенческого сообщества под эгидой кафедры Когнитивных Технологий, открытой Cognitive Technologies в МФТИ. Результаты по данному проекту планируется получить к 2010 году.

Open Source-проект «OCR CuneiForm» - научный проект Cognitive Technologies

Необходимо отметить, что для компании Cognitive Technologies, в которой научные исследования занимают значительную долю деятельности, Open Source проект OCR CuneiForm представляет огромный научно-практический интерес. Компания предполагает получить комплекс идей и методов, который сможет значительно усилить данную систему и получить в ближайшее время ряд «прорывных» технологических решений.

Рынок свободного ПО

Объем мирового рынка свободного ПО, по данным аналитической компании Saugatuck Technology, к 2010 году составит $22 млрд. при ежегодном росте в 30%. По данным исследовательского центра "Финам", рынок свободного ПО в России составляет сегодня $40 млн. К 2010 году эта цифра достигнет $200 млн.

Доля Cognitive Technologies к 2010 году может составить 5-7% за счет оказания услуг, технической поддержки и рекламы.

Программа «Распознавание должно быть на каждом компьютере»

Предполагается, что одним из основных результатов Open Source - проекта OCR CuneiForm должен стать рост популярности и распространенности решений в области распознавания печатных текстов благодаря открытости кода и нулевой стоимости ПО. Системы распознавания должны стать общедоступными!

По данным Cognitive Technologies число активных пользователей систем распознавания (те, кто используют OCR не реже 1 раза в месяц) за счет использования Open Source к 2010 году может возрасти в 5 раз, во многом за счет активного подключения к использованию OCR офисных сотрудников, учащихся школ, студентов вузов, а также государственных структур, для которых бесплатное ПО станет хорошей альтернативой пиратским продуктам.

Таким образом, число пользователей OCR к этому периоду времени может составить порядка 25 млн. человек. (Сегодня это число составляет порядка 5 млн. чел.)

Компания Cognitive Technologies планирует развивать проект в три этапа:

1. OCR Cuneiform - программa Freeware

12 декабря 2007 года OCR CuneiForm станет доступной для широкого использования (freeware). Полную версию системы можно будет скачать с сайта Cognitive Technologies www.cuneiform.ru (http://www.cuneiform.ru/downloads/index.html), а также в последствии с тематических ресурсов www.download.ru, www.freeware.ru и т.д.

2. Подготовка web-сервиса

В рамках данного этапа будет подготовлен Интернет-ресурс www.Cuneiform.ru. Любой желающий сможет бесплатно распознать документы в on-line.

Сроки: конец января 2008 г.

Компания Cognitive Technologies планирует довести число распознаваний на www.Cuneiform.ru до 10 000 в день к концу 2008 г.

3. Подготовка и размещение исходных кодов OCR Cuneiform

Сроки: март 2008 г.

С начала марта 2008 года Cognitive Technologies в качестве инвестора и координатора планирует начать работы по подготовке новой версии OCR CuneiForm с участием широких слоев компьютерного «сообщества».

Информация об OCR CuneiForm:

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

• высокое качество распознавания;

• высокая скорость работы;

• распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);

• работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;

• распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;

• автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;

• полное сохранение топологии страницы;

• поддержка пакетного режима сканирования и распознавания;

• простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;

• встроенный текстовый редактор для работы с распознанным текстом;

• совмещенный показ изображений и результатов распознавания.

В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.


Ньюсмейкер: Cognitive Technologies — 214 публикаций
Поделиться:

Интересно:

325 лет назад Петр I издал указ о праздновании Нового года 1 января
20.12.2024 13:05 Аналитика
325 лет назад Петр I издал указ о праздновании Нового года 1 января
До конца XV века Новый год на Руси праздновали 1 марта. Эта точка отсчета была связана с тем, что в марте земля пробуждалась от зимнего "сна", начинался новый посевной сезон. С 1495 года Московский государь Иван III приказал перенести празднование Нового года на 1 сентября. Причин для...
19.12.2024 19:56 Интервью, мнения
Праздник к нам приходит: как поддержать атмосферу Нового Года в офисе
Конец года — самое жаркое время за все 12 месяцев, особенно для компаний. Нужно успеть закрыть все задачи, сдать отчёты, подготовить планы, стратегии и бюджеты. И, конечно же, не забывать про праздник, ведь должно же хоть что-то придавать смысл жизни в декабре, помимо годового бонуса.  Не...
Прозвища бумажных денег — разнообразные и многоликие
19.12.2024 18:17 Аналитика
Прозвища бумажных денег — разнообразные и многоликие
Мы часто даем прозвища не только знакомым людям и домашним питомцам, но и вещам, будь то автомобили, компьютеры, телефоны… Вдохновляемся цветом или формой, называем их человеческими именами и даем понять, что они принадлежат только нам и имеют для нас...
Советская военная контрразведка
19.12.2024 17:51 Аналитика
Советская военная контрразведка
Советская военная контрразведка появилась в годы Гражданской войны и неоднократно меняла свою подчиненность, входя то в структуру военного ведомства, то в госбезопасность. 30 мая 1918 г. учрежден первый орган военной контрразведки Красной армии – Военный контроль Оперативного отдела Народного...
Защитить самое ценное: История страхования в России
18.12.2024 13:22 Аналитика
Защитить самое ценное: История страхования в России
С давних времен человек стремится перехитрить свою судьбу. Люди желают знать, что будет, чтобы вовремя подготовиться к возможным перипетиям и обезопасить свое будущее. Вот только карты и гадалки в этом вопросе бессильны, куда надежнее справиться с рисками помогают...