Отправляет email-рассылки с помощью сервиса Sendsay

Всё о документообороте

  Все выпуски  

Статья "Зачем нам нужны технологии поиска и анализа неструктурированной информации?" от Дмитрий Романов


Все о документообороте

Сайт рассылки
 



Статья "Зачем нам нужны технологии поиска и анализа неструктурированной информации?" от Дмитрий Романов
2014-09-24 19:06 Дмитрий Романов

Данная статья будет посвящена вопросам экономической эффективности технологий поиска и анализа неструктурированной информации.

Как оценить экономический эффект?

И первое, с чего хотелось бы начать,– определить предмет обсуждения. Если с системами электронного документооборота и электронными архивами большинство читателей уже давно и хорошо знакомы (в т. ч. и на личном опыте), то технологии поиска и анализа неструктурированной информации по-прежнему остаются для многих terra incognita. Разнообразие и сложность решаемых задач приводят не только к появлению широкого семейства технологий, но и к многочисленным названиям данного семейства.

Семантические технологии, текстовая аналитика, Text Minning, Content Intelligence – вот далеко не полный перечень названий, которые встречаются в публикациях. К сожалению, начавшаяся пару лет назад и набравшая силу в последнее время маркетинговая шумиха по продвижению тематики BigData не проясняет, а скорее запутывает и затрудняет понимание этих вопросов.

Определимся с предметом обсуждения

Итак, что же это такое – анализ неструктурированной информации? «Это ведь просто полнотекстовый поиск? Так он давно у нас есть в СЭД, в архиве, да и просто на локальном компьютере я тоже могу искать нужные файлы по ключевым словам...», – примерно такие вопросы и рассуждения вполне типичны, когда речь заходит о технологиях анализа неструктурированной информации. Да, технология полнотекстового поиска исторически является одним из первых примеров тех технологий, вопросам экономической эффективности которых и посвящена данная статья. Благодаря широкому распространению поисковых сервисов в Интернете она стала доступной и хорошо известной. Но полнотекстовый поиск по неструктурированной информации – далеко не единственная из возможных технологий и, более того, далеко не самая выгодная в части экономического эффекта, получаемого при корпоративном применении. Попробуем разобраться, что же еще входит в спектр современных технологий для анализа неструктурированной информации.

Для упрощения под неструктурированной информацией далее в данной статье будем понимать прежде всего текстовую информацию – тексты документов, сообщения электронной почты, публикации в блогах и социальных сетях и т. п. Прочие виды неструктурированной информации – изображения, звук, видео и технологии для их анализа – оставим для отдельного рассмотрения в последующих публикациях.

В целом можно сказать, что исследователи и разработчики, создающие программы для анализа неструктурированной информации, двигаются по пути создания искусственного интеллекта. Однако научить компьютер понимать смысл текстовой информации далеко не так просто, как может показаться на первый взгляд. Даже простые человеческие языки значительно более сложны, чем самые сложные языки программирования.

Очевидно, что общение между людьми несравнимо богаче, ярче, эмоциональнее, чем передача информации между компьютерами.

В текстах существует множество особенностей и исключений из правил, умолчаний и неоднозначностей, тонких намеков и нюансов, легко воспринимаемых и осознаваемых любым человеком, но крайне сложных для понимания компьютером. Тем не менее, в последние годы на этом пути достигнуты значительные успехи.

Анализ, по определению, это разложение целого на составные части. Составными частями текста являются слова и предложения. Первое, что потребуется нам для разделения текста на составные части, – технология, позволяющая извлекать текст из множества различных источников корпоративной неструктурированной информации и понимать разнообразные и многочисленные файловые форматы, в которых сохраняют информацию используемые в организациях программные продукты.

Насколько объемным будет множество источников неструктурированной информации и насколько многочисленными окажутся файловые форматы в конкретной организации?

Это зависит от размера организации и специфики ее деятельности, но в большинстве средних и крупных российских компаний можно смело рассчитывать на десятки (если не сотни) форматов файлов с текстовой информацией и не меньшее количество источников различных типов (от обычных файловых папок и реляционных баз данных до проприетарных форматов хранения текста в справочных правовых системах, CAD-системах, на серверах MS Exchange и SharePoint, в базах данных Lotus Domino и т. п.). Большинство производителей решений для анализа неструктурированной текстовой информации реализуют средства для извлечения текста из различных корпоративных источников в виде специальных модулей – программных адаптеров, которые настраиваются на применяемые в организации информационные системы и извлекают из них текст для последующего морфологического анализа.

Выделение информационных объектов

Морфологический и синтаксический анализ текста

Морфологический анализ текста позволяет для каждого встретившегося слова (специалисты используют термин «лексема») определить, к какой части речи относится данное слово, в какой грамматической форме оно употреблено в заданном контексте, и привести слово к его начальной форме. Если разработка адаптеров для выделения текстовой информации из разных источников – в значительной степени техническая, инженерная задача, то определение, настройка и программирование правил работы морфологического анализатора требует глубоких знаний в области компьютерной лингвистики.

Обычно для морфологического анализа используются сочетания нескольких подходов: большая часть слов описывается с помощью словаря с перечнем базовых словоформ и способов словообразования, а для сложных случаев и исключений применяются специальные алгоритмы и наборы эвристических правил.

Синтаксический анализ – следующий этап в анализе текстовой информации. Разобравшись с частями речи на предыдущем этапе, можно переходить к более сложной задаче и выяснить, как эти слова соотносятся друг с другом и какими членами предложения они являются.

Синтаксический анализ позволяет выделить в предложении подлежащее, сказуемое, обстоятельства, дополнения, причастные и деепричастные обороты.

Технологии семантического анализа и определения значимости. Таксономия

Конечная цель многочисленных исследований и разработок, проводящихся в данной области, – приблизиться к пониманию компьютером смысла анализируемого текста. Здесь уже приходится прибегать к помощи следующего этапа в анализе неструктурированной информации – технологии семантического анализа.

На этом уровне необходимо учитывать взаимосвязи между терминами и понятиями предметной области, работать с синонимами, анализировать не только отдельные предложения, но и весь текст целиком.

Важной как самой по себе, так и крайне необходимой для корректной работы других способов обработки неструктурированной текстовой информации является технология определения значимости лексических и семантических единиц.

Реализация данной технологии означает способность присваивать терминам определенный вес и тем самым отделять общеупотребительные слова и словосочетания от тех, которые описывают важные смысловые понятия и нужны для выражения экспертных знаний и компетенций. Накопление статистических данных о том, насколько часто те или иные значимые слова или словосочетания оказываются расположенными близко друг к другу в текстах документов, позволяет строить семантические сети и таксономии (иерархические классификаторы).

Таксономия – учение о принципах и практике классификации и систематизации.

В текстах документов, новостных лентах, публикациях в социальных сетях и других источниках неструктурированной информации часто упоминаются фамилии, имена и отчества людей, их должности и звания, названия организаций и их структурных подразделений, географические объекты (страны, города, реки, моря и т. д.), адреса зданий, сооружений и других объектов недвижимости, номера телефонов, адреса веб-сайтов и электронной почты, торговые марки и названия товаров, ссылки на нормативные правовые акты, даты и временные интервалы и множество других информационных объектов.

Технология, выделяющая из текста все упоминания информационных объектов

Для множества практических применений крайне необходима технология, выделяющая из текста все упоминания информационных объектов. Фактически данная технология позволяет частично структурировать неструктурированный текст.

Выделение некоторых информационных объектов осуществляется на основе специальных словарей (например, словарей названий географических объектов), для других приходится применять сложные эвристические правила (такими являются названия организаций). Иногда приходится комбинировать несколько подходов (без этого сложно реализовать выделение упоминаний физических лиц). Основная проблема при решении данной задачи заключается даже не столько в непосредственном выделении упоминаний информационного объекта из текста отдельного документа или сообщения, сколько в принятии алгоритмом решения об их отождествлении, т. е. объединении нескольких объектов в один. У организаций могут быть полные, официальные и краткие, жаргонные наименования. Среди сотрудников организации вполне возможны однофамильцы и даже полные тезки.

Например, если в одном документе встретится «Романов Д.А.», а в другом «Романов Дмитрий Александрович», то можно ли считать, что речь идет об одном и том же человеке? А если в третьем документе появится «Романов Денис Алексеевич»? Даже понимание того, идет ли речь о мужчине или о женщине, может вызывать проблемы (Женя Криворучко – это кто?).

Тут на помощь приходит синтаксический анализ конкретного контекста употребления информационного объекта, анализ дополнительных свойств объекта (например, должности), анализ статистики совместно упоминаемых терминов и другие более сложные методы. Но даже при обилии информации и применении мощного математического аппарата всегда существует вероятность ошибки. Впрочем, люди также неидеальны, часто ошибаются и принимают одного человека за другого.

Выделение взаимосвязи между объектами

Технологии обработки и выделения фактографической информации

Научившись выделять информационные объекты, можно переходить к более сложной задаче и выделять взаимосвязи между объектами.

Иногда такие взаимосвязи пытаются представить в виде некоторого факта – определенного действия, совершенного тем или иным субъектом над каким-то объектом или по отношению к другому субъекту. Лучше всего технологии обработки и выделения фактографической информации работают в тех задачах, в которых обеспечивается достаточно высокая степень формализации и однородности исходных информационных потоков.

Такими задачами, например, являются обработка сообщений из новостных лент или сводок о происшествиях и чрезвычайных ситуациях.

Технология определения степени похожести между текстами

Следующей технологией, о которой нужно рассказать, является технология определения степени похожести между текстами.

Расстояние между географическими объектами измеряют в метрах и километрах, а в каких единицах можно измерить расстояние между документами? Существует множество определений того, что считать степенью похожести и как эту похожесть измерять.

Например, два текста могут считаться похожими друг на друга, если они содержат большую долю одинаковых и значимых слов и словосочетаний.

Понятно, что общеупотребительная лексика и тем более стоп-слова не должны оказывать заметного влияния на расчет степени похожести.

Другой вариант – считать тексты похожими, если они описывают один и тот же (или близкий) набор фактов. Такой подход применяется при агрегации новостных потоков и позволяет группировать различные описания одних и тех же событий. Наконец, можно считать тексты похожими, если в них много одинаковых предложений, совпадающих с точностью до каждого отдельного символа. Похожий способ используется поисковыми серверами при нахождении дублирующихся страниц в Интернете для сокращения за счет этого количества страниц, предоставляемых пользователю в ответ на его запрос.

Наверняка многим читателям приходилось встречать примерно такое сообщение: «Мы нашли еще NNNN страниц, очень похожих на те, которые вы уже видели...».

Мы публикуем статью с сокращениями. Более подробно о технологиях классификации документов, анализа эмоциональной окраски и выделения мнений, аннотировании текстов и подготовке кратких рефератов, технологии для анализа социальных сетей и о многом другом вы узнаете в №9 2014 журнала "Современные технологии документооборота и делопроизводства"

Область деятельности, связанная с анализом неструктурированной информации, очень широка и разнопланова, поэтому, к сожалению, многие интересные технологии остались за рамками данной статьи.

 



Статья "Архивное хранение электронных документов" от Ксения Тратканова
2014-09-25 12:52 Ксения Тратканова

«It's hard to look right

To achieve you, baaaabeh»

Из современной песни

После автоматизации документооборота, неизменно возникает вопрос о хранении документов. Неужели автоматизация прошла даром и на последнем этапе документ придется распечатывать, чтобы обеспечить его архивное хранение?

Сложности обеспечения сохранности электронных документов объясняются быстрым устареванием компьютерной техники, несовершенством информационных носителей и отсутствием успешных международной практик в этой области. Однако существуют документы, в которых описаны требования и рекомендации по хранению электронных документов.

Требования к хранению электронных документов

Обратимся к требованиям ГОСТ Р 54989-2012/ISO/TR 18492:2005 «Обеспечение долговременной сохранности электронных документов».

Документ должен быть читабельным на протяжении всего срока хранения. Из-за быстрого устаревания компьютерной техники и программного обеспечения возможна ситуация, когда документ созданный много лет назад будет невозможно прочитать, из-за отсутствия необходимого ПО или устройства.

Необходимо перезаписывать документы для устранения проблемы устаревания носителей. Например уже сегодня сложно прочитать информацию с 3,5дюймовой дискеты, которые 10 лет назад были распространенным носителями информации. Решением этой проблемы законодатели видят периодическую перезапись информации с устаревающих носителей на более современные.

Документ должен содержать атрибуты, позволяющие его идентифицировать. Имея гипотетическое хранилище электронных документов, необходимо хранить документы таким образом, чтоб не открывая каждый документ пользователь мог найти нужный. Тут помогут уникальные идентификаторы и различные методы группировки и сортировки.

Документ должен быть доступен для чтения, независимо от появления новых версий редакторов и ридеров. Не зря на сегодняшний день все крупные разработчики ПО при разработке новых версий продукта поддерживают форматы и технологии предыдущих версий.

Должна быть обеспечена возможность установки логических связей между документами, для правильной интерпретации текста документа. Например суть договора, в котором идет ссылка на приложение к договору, будет не понята в полной мере без прочтения приложения. Поэтому визуально и физически эти два документа должны быть связаны для быстрого и удобного поиска.

Согласно другого документа - Рекомендации по комплектованию, учету и организации хранения электронных архивных документов в архивах организаций, организации должны разработать внутренние нормативные документы по комплектованию, учету, хранению и использованию электронных документов. Часть рекомендаций приведена в этом же документе, что существенно облегчает формирование внутренних нормативных документов.

Прием документов в архив организации и информационные системы

В рекомендациях говорится о том, что «технические аспекты приема электронных документов в архив организации, операции учета, отбора, обеспечения сохранности и хранения, конвертирования в новые форматы и миграции на новые носители устанавливаются в специальных инструкциях, разрабатываемых в организации», а так же что «архив организации осуществляет администрирование информационных систем организации в части соблюдения требований к хранению созданных и/или включенных в них электронных документов».

Также определено, что в архив организации должны передаваться документы со сроком хранения более 10 лет. Документы со сроком хранения менее 10 лет должны храниться в информационной системе организации, в которой были созданы. «При этом они должны быть систематизированы в соответствии с существующей на предприятии номенклатурой дел и проиндексированы в соответствии с правилами для дел бумажных документов».

Требования к документам, передаваемым в электронный архив

Не менее важны вопросы по формату передаваемых документов в архив:

●    При сдаче документов в архив их необходимо сконвертировать в формат архивного хранения, которым назван формат - PDF/A-1.

●    Учетной единицей электронных документов в архиве организации является единица хранения – контейнер электронного документа. Контейнер электронного документа представляет собой zip-архив, который содержит сам документ и его метаданные, включая ЭП.

●    Систематизация документов в дела и распределение в контейнеры проводится в подразделении, в котором ведется дело.

●    Контейнеры на хранение могут передаваться по сети или на обособленном носителе информации однократной записи в двух экземплярах –основной и рабочий.

●    Учету подлежат все хранящиеся в архиве организации электронные документы и описи электронных документов, дел.

●    Учет производится путем присвоения единицам хранения электронных документов учетных номеров, которые являются составной частью их архивного шифра, понятно, что если документы передаются обособленных носителях, то шифр необходимо проставлять на футляре носителя. При хранении электронного документа в информационной системе шифр включается в метаданные контейнера документа

●    Архивный шифр единицы хранения электронных документов включает те же элементы, что и архивный шифр хранения бумажных документов и дополнительно указывается отметка о статусе экземпляра электронных документов: (осн.) –основной, (раб.) – рабочий.

Требования к сохранности электронных документов

Описаны процедуры для обеспечения сохранности ЭД и требования для хранения боксов с обособленными носителями информации: «Должна проводиться проверка наличия и состояния документа при сдаче в архив, раз в три года и при перемещении архива в другое место, при смене руководителя архива, при переносе документов на другие носители и перед передачей документов в государственный архив. В документе описаны правила и цели проведения проверки».

Выдача документов

Для выдачи электронного документа из архива документ копируется, а его достоверность должна подтверждаться отсоединенной ЭП. Факт выдачи фиксируется в журнале.

Архив организации может предоставлять электронные документы по локальной сети организации. В этом случае ведется электронный журнал учета выдачи электронных документов из архива, в котором фиксируется: дата выдачи, фамилия, инициалы запросившего документ сотрудника, название структурного подразделения, заголовок и учетный номер выданного документа.

* * *

Большинство из нас привыкли работать с документами в электронном виде, и вышеперечисленные факты еще на шаг приближают такой режим работы к законодательно правильному. И хочется верить, что совсем скоро  мы будем вести полностью автоматизированный документооборот.



Запись блога "Как обеспечить удобство, скорость и простоту поиска по мультимедиа-контенту?" от Максим Галимов
2014-09-25 13:15 Максим Галимов

Как и для текстовых документов, принципиально поисковые возможности по изображениям, видео- и аудио-материалам можно разделить на три категории: поиск по мета-информации (название, ключевые слова, автор, время создания, координаты, размер, длительность и т.п.), поиск по содержимому, поиск по образцу. В любом случае качество поиска очень зависит от качества исходного занесения медийных материалов в архивную систему.

Если с мета-данными проблем обычно немного, то вопрос поиска по содержимому выглядит сложнее, чем для текстовых документов. В первую очередь потому, что для поиска нужно текстовое содержимое, которое еще нужно получить для аудио и видео-материалов. В ряде случаев это несложно, например, если разместить видео-ролик собственного производства и одновременно с ним сохранить подстрочник (для удачного поиска роликов в YouTube, например, такой подход является стандартом де-факто). Но когда речь идет о размещении записей, пришедших со стороны, то нужен или долгий и дорогостоящий ручной ввод, или средства распознавания голоса, которые пока еще очень несовершенны. Но если текстовое описание сохранено, то поиск по медиа-документам уже не слишком отличается от поиска по текстовым.

При поиске по содержимому есть очень важная проблема, которая, кстати, касается и текстовых документов: невозможность поиска по смыслу. К сожалению, пока не существует уверенных технологий, способных, например, найти документы или медиа-материалы "где выступает известный корейский певец с песней про девушек и лошадей".

В отличие от текстовых документов для изображений, видео и аудио-материалов гораздо больше применим поиск по образцу. И этот поиск активно применяется и в интернет-сервисах. Найти песню на напетый мотив (SoundHound), похожие на образец изображения (TinEye, Google Images), изображения с преобладанием определенного цвета (Яндекс.Картинки) -- эти и подобные поиски через сравнение могут найти применение и в корпоративных системах-электронных архивах документов.

Кроме непосредственно поиска важную роль в работе с документами играет навигация: переход к документу через структуру папок, связанные документы, общие потоки работ. Также для цифровых медиа-архивов важна поддержка сквозного поиска по различным хранилищам. Впрочем, в большинстве случаев эти же аспекты важны и для многих задач поиска по текстовым документам.


 



 
 
С пожеланиями успехов,
Михаил Кузьмин
 

В избранное