Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Мир OLAP и Business Intelligence: новости, статьи, обзоры (Выпуск от 05.03.01)


Служба Рассылок Subscribe.Ru проекта Citycat.Ru

Здравствуйте, друзья!

На нашем сайте появился новый раздел - Технологии поиска и интеллектуального анализа текстовой информации. Какое отношение это имеет в бизнес-аналитике? Давайте задумаемся - если действительно все уже когда-то было написано, значит верно и то, что на каждый вопрос уже когда-то был получен ответ. Осталось только создать механизм поиска, который сможет найти эти ответы, вне зависимости от того, в какого вида документах они были изложены. Использование технологий добычи данных позволяет организациям легко извлекать знания из данных, накопленных ими и сохраненных с применением хорошо проработанных схем, таких как реляционные таблицы. Более того, постепенно это становится распространенной деловой практикой. Однако сегодня некоторые организации пытаются создать аналогичный инструментарий добычи данных для гораздо более сложного источника: неструктурированного текста. Подобный инструментарий очень нужен практически всем организациям, имеющим огромное (и постоянно растущее) число интерактивных документов, сообщений электронной почты и запросов, часто содержащих чрезвычайно важную информацию. Приложив эту технологию (примерно таким же образом, как аналитики используют добычу данных для обнаружения знаний или анализа тенденций) к неструктурированной текстовой информации, пользователь или приложения смогут анализировать текст с целью поиска определенной структуры и извлечения содержащейся в нем информации. Аналитики предсказывают, что добыча текста приобретет особое значение в ближайшее пятилетие, как это произошло с добычей данных в девяностых годах.


Статьи:


Преимущества Industry Warehouse Studio

Создавать хранилища данных можно разными способами. Можно попробовать разработать его самостоятельно, используя предназначенные для этого компоненты различных фирм, а можно приобрести готовое решение и попытаться адаптировать его к потребностям своего предприятия. Однако сравнительно недавно компания Sybase предложила третий и по ряду критериев наиболее оптимальный подход - Industry Warehouse Studio, представляющий собой набор инструментов, приложений и готовых шаблонов, с помощью которого вы как из кубиков сможете построить хранилище вашей мечты, сэкономив время, деньги и нервы не только на этапах подготовки и реализации проекта, но и в процессе его использования.

Студии хранилищ данных - шаги к успеху

Хранилища данных сегодня достигли в своем развитии такого же уровня, в каком системы разработки приложений находились к концу 80-х годов. В связи с этим в данной области появилась аналогичная реальная альтернатива построению хранилищ "с нуля" - интегрированные наборы продуктов, содержащих инструменты для проектирования и преобразования хранилищ, базы данных, средства управления метаданными и администрирования хранилища данных. С помощью таких наборов у организаций будет возможность сэкономить время и средства на реализации бизнес-решений и одновременно увеличить гибкость и масштабируемость создаваемого хранилища соответственно требованиям определенного предприятия и быстро меняющимся условиям конкретных сфер бизнеса. Сегодня мы можем с уверенностью сказать, что формируется новое поколение хранилищ данных, которое уже не предусматривает в проекте своей реализации начального и самого длительного этапа, включающего в себя разработку схемы проектирования, построения аналитических запросов, шаблонов ETL и др.

Ассоциативная модель смысла текста в прикладных задачах компьютерного анализа полнотекстовых документов

Решение большинства прикладных задач компьютерного анализа текстовой информации (автоматическое аннотирование, тематическая категоризация и т.д) требует привлечения средств, позволяющих выявлять основные единицы смысла текста и семантические связи между ними, предоставить которые прикладная лингвистика пока не в состоянии. Вследствие этого в коммерческих информационо-поисковых системах возобладали статистические методы, что приводик к неудовлетворительным результатам. В основе подхода, реализованного компанией компании "Гарант-Парк-Интернет", лежит представление смысла текста в форме ассоциативной семантической сети [4], узлы которой представлены множеством часто встречавшихся понятий текста - слов и устойчивых словосочетаний, из числа которых исключены общеупотребимые слова. Узлы сети ассоциативно связаны между собой с различной силой, причем сила связи коррелирована с частотой совместной встречаемости понятий в предложениях текста. Семантическая сеть может быть автоматически построена на базе множества текстов и использована впоследствии как модель предметной области для анализа неизвестных документов.

Russian Context Optimizer: путь к возможностям Oracle interMedia врусскоязычных базах данных

Быстрый рост индустрии систем электронного документооборота еще недавно происходил в условиях отставания автоматизированных средств обработки неструктурированной информации, представленной, в частности, в форме текстов на естественном языке. Эволюция линии программных продуктов Oracle (от Text Server в составе СУБД Oracle 7.3.3 до картриджа interMedia Text в Oracle8i) смогла наконец восполнить этот пробел, и теперь обработка текста сочетается с поисковыми и другими возможностями, которые предоставлены пользователю для работы с реляционными базами данных. В частности, при написании приложений для обработки текста стало возможным использовать SQL. Адаптацией технологий Oracle к русскоязычным полнотекстовым базам данных занимаются специалисты компании "Гарант-Парк-Интернет", которая выпускает продукт под названием Russian Context Optimizer, предназначенный для совместного использования со средствами разработки СУБД Oracle. Новая версия этого продукта в полной мере задействовала оригинальные лингвистические и аналитические технологии компании, основанные на многолетнем опыте работы в области интеллектуальных информационно-поисковых систем.

Обработка знаний: технологии анализа и поиска текстовой информации

Развитие индустрии систем электронного документооборота, сопровождающееся ростом массивов обрабатываемых полнотекстовых документов, требует новых средств организации доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта - систем добычи данных и обработки знаний. Компания "Гарант-Парк-Интернет" разработала ряд технологий, предназначенных для автоматического анализа содержания текстовых документов и выявления основных смысловых единиц, работа с которыми призвана облегчить процессы визуализации и поиска информации. Выявление смысловых структур, в сжатом виде описывающих основное содержание текстового материала, основано на модели механизмов обработки информации правым полушарием человеческого мозга. Эти технологии позволяют установить степень смысловой близости текстов, что может использоваться для автоматической классификации документов по заданным рубрикам, поиска документов по подобию заданному тексту, а также кластеризации информационного массива на классы документов близкого содержания.


Наши наиболее читаемые публикации:


Краткосрочные и долгосрочные задачи хранилища данных

Хранилище данных не является еще одной базой данных СППР - это среда, состоящая из одной или более баз данных, спроектированная для обеспечения возможности соответствующего и согласованного бизнес-анализа во все бизнес-подразделения организации. Чтобы избежать той же беды, которая постигла информационный инжиниринг при попытках решить все проблемы управления данными за один ударный подход, вам потребуется разделить задачи вашего хранилища данных на две категории: краткосрочные и долгосрочные.

Borland Delphi и расширения ADO:применение ADO MultiDimensional

Как известно, ADO - это часть архитектуры универсального доступа к данным (Microsoft Universal Data Access). В статье рассматриваются расширения ADO - ADO Extension for DDL and Security (ADOX), Jet and Replication Objects (JRO) и ADO Multidimensional (ADO MD). Описывается, как использовать объекты ADOX для получения метаданных и создания баз данных "из ничего". Показано использование объектов JRO для сжатия баз данных Access и рассказывается о процессе репликации баз данных. Наглядно продемонстрировано, как можно использовать объекты ADO MD для получения метаданных и данных из многомерных OLAP-хранилищ. Описанные расширения ADO позволяют добавить к Delphi-приложениям многие полезные функции, недоступные с помощью входящих в комплект поставки Delphi компонентов ADO Express.

Новые возможности OLAP в SQL Server 2000

После выхода в свет версии SQL Server 7.0 компании Microsoft команда разработчиков, создавшая OLAP Services, поставила перед собой задачу к следующей версии сделать продукт, способный стать лидером по производительности и богатству возможностей. Сегодня уже можно видеть некоторые плоды их усилий. В состав SQL Server 2000 входит новая версия OLAP Services, которая называется теперь Analysis Services 8.0, что лучше отражает ее аналитические возможности. В этой статье дан предварительный обзор наиболее важных черт Analysis Services. ______________________________________________________ OLAP.ru Крупнейший в России сайт по технологиям OLAP и DSS. Весь спектр информации из Интернет и прессы. Статьи, аналитика, тенденции, описания OLAP-продуктов. Полезные ссылки.

Рекомендуем подписаться на рассылки:
Ежедневные вакансии для IT-специалистов
Программное обеспечение для учета, анализа и управления


http://subscribe.ru/
E-mail: ask@subscribe.ru
Поиск

В избранное