Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Лучшие статьи журнала


Информационный Канал Subscribe.Ru

Здравствуйте, уважаемые читатели!

В этом выпуске рассылки публикуется статья, занявшая по результатам голосования третье место.


Елена ПОЛОНСКАЯ,
e_polons@comizdat.com

С бланка в базу данных

Как ускорить ввод в базу данных анкет, квитанций и других данных, которые предоставляются на бланках, заполненных от руки? Можно, конечно, увеличить количество операторов, а можно установить систему автоматического ввода данных с форм

Вряд ли найдется человек, которому не доводилось бы заполнять бланки. Анкеты, счета, декларации и тому подобные документы давно существуют в различных областях человеческой деятельности. С другой стороны, сегодня для хранения и обработки информации повсеместно используются компьютеры и компьютерные сети. Неудивительно, что перенос информации с бумажных бланков в компьютерное хранилище данных стал одной из самых актуальных задач в области документооборота.

Зачем автоматизировать ввод форм?

С чем связана актуальность задач автоматического ввода форм в практике большинства организаций?

Есть три причины, по которым эта задача остается актуальной, несмотря на широкое распространение компьютеров и интернета. Прежде всего, это неравномерность нагрузки операторов. Отчеты, собираемые государственной администрацией, платежные поручения в банк, заявления и другие документы никогда не поступают регулярно. Обычная ситуация выглядит по-другому: если срок подачи каких-то данных — в течение, скажем, двух недель, то в начале этого периода в операционном зале пусто и тихо, как в музее, но в последние три дня он скорее напоминает вокзал в сезон отпусков.

Для руководства организации — налоговой инспекции, банка, торговой фирмы — это очень серьезная проблема. Например, в банках есть несколько пиковых дней, когда количество платежных поручений в 2–3 раза превышает обычное: последний день месяца и несколько дней в середине, когда осуществляются бюджетные платежи. Как решить эту проблему? Нанимать людей для «сезонной» работы и увольнять их два раза в месяц? Вряд ли это рационально. Чаще количество персонала в организации рассчитано на максимальную нагрузку. В остальные дни операторы просто работают не в полную силу. Конечно, экономически это не очень целесообразно. Автоматизация позволяет решить проблему пиковых нагрузок.

Второе, что необходимо обеспечить при вводе данных — достаточно высокую скорость обработки. Когда человек вручную вводит в компьютер какие-то данные, его скорость падает с каждым следующим введенным документом. Причина этого — компьютерный зрительный синдром. Когда приходится долго смотреть на экран компьютера, глаза устают, и это сказывается на всем организме: замедляются рефлексы, ослабляется внимание. Оператор начинает работать медленнее, допускать больше ошибок. Поэтому к обработке большого количества данных приходится привлекать очень много людей, причем не всегда удается точно подсчитать, сколько именно их нужно, так как со временем люди будут работать все медленнее и медленнее.

Третья и самая важная причина — обеспечение достоверности введенных данных. Необходимо, чтобы введенные данные точно соответствовали тому, что написано на бумаге. Это гораздо сложнее, чем может показаться. Достаточно сказать, что для обеспечения достоверности при ручном вводе часто поручают ввод одной и той же бумажной формы двум людям. Потом результат автоматически сравнивается — и постоянно обнаруживаются расхождения. Стоит ли говорить, к чему могут привести такие неточности, например, в банковской практике?

Автоматизация ввода форм в значительной степени решает эту проблему, так как в роли одного из двух операторов выступает компьютерная система. Она автоматически распознает поступающие на вход бумаги и передает оператору сомнительные места для подтверждения. Таким образом, человек избавляется от основного источника ошибок — рутинной работы — и только подтверждает, правильно ли система распознала введенный документ.

Автоматизированный ввод форм заключается в следующих операциях:

  • скоростное сканирование заполненных форм (произво­дительность скоро­стного сканера обычно составляет не менее 10 страниц в минуту);
  • автоматическое распознавание;
  • верификация: автоматическая, по правилам сложных систем (по справочникам, проверка сумм, перекрестные проверки и т.п.); групповая, когда на экран оператора выдаются все символы, которые система считает одинаковыми, но в которых сомневается; контекстная, при которой проверяются целые поля.
  • экспортирование подтвержденной информации в базу данных.

Производительность труда одного оператора при автоматизированном вводе составляет от 400 до 3000 страниц в день, в зависимости от сложности форм, в то время как при ручном вводе — 70–300. При этом резко возрастает качество, поскольку компьютерная система не подвержена усталости. Кроме того, в ней обычно используются правила контроля данных, существенно повышающие общую надежность системы.

Распознавание форм

Выделяют два основных класса систем оптического распознавания символов: OCR (optical character recognition) и ICR (intelligent character recognition). OCR-системы распознают пе­чатные символы, нанесенные на бумагу типографским спосо­бом, при помощи принтера, плоттера или пишущей машинки. ICR-системы обрабатывают документы, заполненные печатны­ми буквами и цифрами от руки.

OCR-система разбивает изобра­жение на блоки (текст, таблицы, иллюстрации), затем последова­тельно разделяет каждый блок на более мелкие объекты: абзацы, строки, слова, символы. Последние, собственно, и распознаются. Затем распознанные символы снова «собираются» в слова, строки и так далее, вплоть до синтеза полного электронно­го аналога исходного документа.

Для распознавания форм используются преимущественно ICR-системы, которые функционируют несколько иначе: на исходном изображении выде­ляются области, в которых должна содержаться смысловая ин­формация, и именно эти фрагменты подвергаются дальнейшей обработке, в том числе и средствами OCR-распознавания. Другими словами, ICR-система не строит точную электронную модель документа, а лишь извлекает ин­формацию из четко ограниченных областей. Эта информация и передастся в систему хранения.

Разумеется, перед ICR-системами стоит гораздо более сложная задача, чем перед программами оптического распознавания. Для того чтобы ICR-система правильно работала, на ее вход передаются данные, вписанные в специально разработанные бланки, или формы. Формой называют документ, имеющий фиксированную структуру и предназначенный для сбора определенной информации. Основными признаками формы является наличие четко обособленных полей, пояснительных надписей, а также ряда служебных элементов.

При заполнении формы вся значимая информация заносится в поля — особым образом разграфленные ячейки. Именно эта информация подлежит дальнейшей обработке. Формы, в которых определение положения полей и отделение данных от разметки может быть выполнено автоматически, программными средствами, называют машиночитаемыми. Именно машиночитаемые формы применяются при автоматизированном вводе данных. Впрочем, практически любая форма может быть преобразована в машиночитаемую.

Клиенты организации могут заполнять машиночитаемую форму по-разному — па пишущей машинке или принтере либо от руки. В последнем случае форма составляется так, чтобы каждый вписываемый символ занимал отдельное знакоместо. Возможны и комбинированные формы, где часть информации напечатана, а часть — вписана от руки.

Выделяют два основных типа форм: жесткие и гибкие. Жесткие формы — это формы с одинаковыми полями; если сложить несколько листов с такими формами, то они совпадут на просвет. Обычно такие формы заполняют вручную. К жестким относятся формы Пенсионного фонда, формы для выдачи заявлений на платежные карты, используемые в ряде банков, а также формы, заполняемые торговыми агентами в некоторых дистрибьюторских компаниях. Для того чтобы най­ти и распознать данные в такой форме, создается ее подобие — шаблон, который затем программа «накладывает» на поступающие изобра­жения заполненных форм. Поля, подлежащие распозна­ванию, как бы «вырезаются» из изображения, а содержащиеся в них буквы и цифры распознаются. Для разработки шаблонов жестких форм применяется, в частности, продукт ABBYY FormReader.

В отличие от жестких форм, где для распознавания используется геометрическая привязка — заранее известные геометрические координаты каждого из распознаваемых блоков, — при распознавании гибких форм используется смысловая привязка. Например, известно, что справа от слова «Invoice» всегда находится номер документа, однако само слово «Invoice» может находиться где угодно. Поэтому система вначале распознает все, что есть на экране, потом находит слово «Invoice» и ищет справа от него некую последовательность цифр, которую и считает номером документа. Эта технология позволяет эффективно обрабатывать нежесткие, слабы структурированные документы, такие как платежные поручения.

Для разработки гибких форм широко применяется продукт ABBYY Flexi Capture Studio Разработчик шаблона «обучает» программу искать нужные поля. Для этого на метаязыке FlexiCapture Studio создается описание расположения каждого поля формы через параметры, описывающие его внешние признаки: стандартный текст, рисунки, разделители, свободные области и т.п. По этому описанию программа находит на форме нужные объ­екты. Если поля найдены правильно, шаблон тестируется на большом количестве форм, уточняет­ся и переносится в программу FormReader.

Организация потокового ввода данных

Выделяют два основных подхода к организации потоково­го ввода данных: обработка форм по мере поступления и по мере накопления. В первом случае система автоматизированного ввода внедряется по принципу front-office (в секретариате, клиентском отделе), во втором — по принципу back-office (в вычислительном центре, внутренних отделах).

Для системы автоматизирован­ной обработки данных, устанавливаемой непосредственно на месте приема форм, скорость сканирования не очень важ­на. Поэтому не обязательно использовать специальный скоростной сканер — подойдет и обычный планшетный. Современные модели обрабатывают лист формата А4 за 30–40 секунд — на общение с клиентом все равно уйдет больше времени.

Если же формы обрабатываются по мере накопления, необходим другой подход. Прежде всего, понадобятся промышленные скоростные сканеры. Это дорогие устройства, часто рассчитанные на круглосуточную работу, так что желательно организовать ввод данных в несколько смен. Затем следует организовать распределенную систему обра­ботки, когда каждый оператор имеет свою специализацию: сканирование, распознавание, верификация или экспорт. В таком режиме ввода необходим значительно более строгий, чем в режиме front-office, контроль качества: одно дело — исправить ошибку, вкравшуюся в единственную квитанцию, другое — в десяток тысяч. Однородные данные часто объединяются в пакеты, каждый из который имеет свои программные настройки. Таким образом облегчается администрирование, маршрутизация и хранение данных. Для такого режима ввода применяются системы класса ABBYY FormReader Enterprise Edition.

Построение систем потокового ввода

Общепризнанным лидером в области распознавания документов, ввода форм и прикладной лингвистики является компания ABBYY. С точки зрения интеграции ее технологий в готовые решения ее программное обеспечение можно разделить на три уровня.

Первый уровень — готовые решения, которые можно эксплуатировать с минимальной настройкой. Они также почти не требуют подготовки персонала. В области распознавания документов это известный FineReader, в области ввода форм — FormReader, в области прикладной лингвистики — популярный словарь Lingvo.

Следующий уровень — продукты, предназначенные для интеграции технологий ABBYY в корпоративные решения. В них учтены основные задачи, стоящие перед системным интегратором: создание качественного решения в кратчайшие сроки с возможно меньшим бюджетом. При этом оптимизация этих приложений по скорости отступает на второй план. Для распознавания документов на этом уровне используется FineReader Scripting Edition, позволяющий использовать FineReader и его интерфейс в приложениях, разрабатываемых системными интеграторами; для ввода форм — FormReader Open API, позволяющий использовать функциональность FormReader в других приложениях; Flexi Capture Studio для разработки гибких шаблонов и Retrieval&Morphology Engine, продукт из области прикладной лингвистики, позволяющий находить одинаковые слова в тексте с учетом их морфологии. Последняя проблема особенно остро стоит в кирилличных языках, где разные формы одного и того же слова отличаются до полной неузнаваемости (сравните, например, украинское «?» и «був»).

Третий уровень образуют продукты для разработчиков ПО, создающих тиражируемые решения. Например, на базе ABBYY FineReader Engine было создано приложение для распознавания визитных карточек, способное автоматически определить, где на карточке фамилия, имя, телефон, название организации и другие атрибуты.

Оптимальная конфигурация системы автома­тизированного ввода зависит от конкретного проекта. Обычно план внедрения той или иной системы разрабатывается при участии специалистов со стороны разработчика и заказчика, располагающих полной информацией об особенностях работы данного предприятия.

Когда возникает необходимость авто­матизированного ввода форм? Вот несколько характерных ситуаций.

Обработка форм не является профиль­ной деятельностью компании. Например, во многих производственных и торговых компаниях нет отдельного подразделения, специализирующего­ся на вводе форм. Входящие документы, такие как заявки на поставку продукции, обрабатывает секретарь в приемной.

Если таких форм достаточно много, то эту операцию можно автоматизировать, на­пример, с помощью ABBYY FormReader Desktop Edition. Эта сис­тема устанавливается на одном рабочем месте, не требует расширения штата и дополнительно­го обслуживания.

Обработка анкет — один из основных бизнес-процес­сов. Если компания — например, маркетинговое агентство — собирает и обрабатывает большие объемы данных (несколько тысяч страниц в день), необходим другой подход. Часто в таких компаниях особенно остро стоит вопрос пиковых нагрузок, так что возникает задача обеспечения масштабируемости — возможности быстрого расширения и сокращения системы по мере необходимости. Кроме того, формы имеют тенденцию меняться от проекта к проекту, так что возникает потребность в удобном средстве конструирования новых форм. Всем этим условиям удовлетворяет система автоматизированного ввода форм ABBYY FormReader Enterprise Edition.

Оцифровка архивов. Такие процессы обычно выполняются один раз — «сделать и забыть», но объем информации, подлежащей оцифровке, весьма велик. В этом случае главное — простота решения, даже если на его реализацию уйдет больше времени. Лишь бы привлекать поменьше людей и денег.

В таком случае можно воспользоваться специальной си­стемой лицензирования ABBYY FormReader — моделью Page Count, по которой поль­зователь приобретает возможность ввода ограниченного числа страниц.

Заключение

Системы автоматизированного ввода успешно применяются в различных организациях — Госкомстате, Пенсионном фонде, Государственной службе занятости, Национальном и многих коммерческих банках, а также в ряде крупных компаний и некоторых высших учебных заведениях. Эти системы используются для ввода анкет, форм налоговой отчетности, платежных поручений, экзаменационных листов, страховых полисов, корреспонденции, архивных документов, чертежей, географических карт, микрофильмов и др. Благодаря автоматизации скорость ввода данных возрастает в 3–5 раз, что позволяет справляться с пиковыми нагрузками, уменьшает объем рутинного труда операторов и повышает достоверность введенных данных.

Елена ПОЛОНСКАЯ,
e_polons@comizdat.com


P.S. Никакая рассылка не заменит большой журнал с цветными иллюстрациями и компакт-диском. Наш подписной индекс — 01728.

Задать вопрос
Прислать свою статью для публикации в журнале
Просто поговорить

До следующего выпуска!
Елена Полонская, редактор "К+П"
www.comizdat.com

Перепечатка материалов этой рассылки разрешается только по согласованию с редакцией журнала "Компьютеры+Программы"


http://subscribe.ru/
http://subscribe.ru/feedback/
Подписан адрес:
Код этой рассылки: comp.paper.bestarticles
Отписаться

В избранное