Тема больших данных является популярной уже достаточно
долгое время, оставляя гораздо больше вопросов, чем ответов. Не обошла стороной
она и нас. Сравнив статьи, посвященные большим данным в Википедии на русском и
английском языках, мы решили дополнить русскоязычную версию некоторой
информацией из ее англоязычной «сестры», предварительно представив переведенный
материал на суд сообщества ECM-Journal.
В данной статье мы публикуем перевод материала, посвященного вопросам
технологии и архитектуры. Далее последует материал по критике концепции больших
данных и практике использования.
Определение
Большие данные (англ. Big Data) – это
общий термин для обозначения процесса сбора данных таких объемов и
многообразия, при которых их обработка с применением традиционных инструментов становится
проблематичной. Трудности возникают при осуществлении захвата, сбора, хранения,
поиска, совместного использования, передачи, анализа и визуализации данных. Тенденция
бОльших объемов данных возникла благодаря возможности получения дополнительной
информации в результате анализа отдельного большого набора связанных данных (в
противовес анализу небольших наборов данных с таким же совокупным объемом).[1]
Ученые регулярно сталкиваются с ограничениями, связанными
с большими наборами данных во многих областях, включая метеорологию, геномику,[2]коннектомику, сложное
моделирование физической среды,[3] исследования в
области биологии и окружающей среды.[4] Эти ограничения
также касаются функции поиска в интернете, финансовой и бизнес-информатики.
Наборы данных увеличиваются в объемах частично ввиду их постоянного сбора посредством
мобильных приложений, воздушных (антенных) высокочувствительных технологий
(дистанционное считывание), лог-файлов, камер, микрофонов, радиочастотных
идентификаторов (RFID), и
беспроводных сенсорных сетей.[5][6][7] Начиная с 80-х
годов XX века мировой объем хранения информации на душу населения удваивается
каждые 40 месяцев;[8] по состоянию на
2012 год каждый день создавалось по 2.5 экзабайт (2.5×1018 байт) данных.[9]
Крупным предприятиям предстоит решить, кто возьмет в свои
руки инициативы по управлению большими данными, которыми уже переполнены целые
организации.[10]
Сложно работать с большими данными, применяя главным
образом системы по управлению реляционными базами данных, desktop-статистику
и пакеты программ для визуализации, когда вместо этого необходимо использовать
«массово-параллельное программное обеспечение, функционирующее на десятках,
сотнях, или даже тысячах серверов».[11]
То, что принято считать «большими данными» различается в
зависимости от возможностей компании, управляющей набором данных, а также от
возможностей приложений, применяемых для обработки и анализа. «Для большинства
организаций первое столкновение с сотнями гигабайт данных может вызвать
необходимость пересмотра средств управления данными. Но для других компаний
«критическим» может стать объем в десятки или сотни терабайт». [12]
Архитектура
В 2004 году компания Google опубликовала документацию по модели
распределенных вычислений MapReduce. В MapReduce представлена параллельная
модель обработки данных. На Map-шаге происходит предварительная обработка
входных данных. Для этого один из компьютеров (называемый главным узлом –
master node) получает входные данные задачи, разделяет их на части и передает
другим компьютерам (рабочим узлам – worker node) для предварительной обработки.
На Reduce-шаге происходит свертка предварительно обработанных данных. Главный
узел получает ответы от рабочих узлов и на их основе формирует результат –
решение задачи, которая формулировалась изначально. Данная модель была
настолько успешна[13],
что многие хотели продублировать ее алгоритм. Поэтому, проект компании Apache с
открытым исходным кодом, получивший название Hadoop[14],
взял ее на вооружение.
Методология управления корпоративной информацией MIKE2.0 – открытый подход
к управлению информацией, который в статье «Big Data Solution Offering»[15]
признает необходимость модернизации решений для управления большими данными в
связи с возросшей частотой их применения. Методология рассматривает управление
большими данными через призму полезных преобразований их источников, сложности взаимосвязей,
и трудностей, связанных с удалением (или изменением) отдельных записей.[16]
Последние исследования показывают, что использование
многослойной архитектуры является одним из вариантов работы с большими данными.
Распределенная параллельная архитектура осуществляет передачу данных на множество
блоков обработки, а параллельные блоки обработки предоставляют данные гораздо
быстрее путем увеличения скоростей обработки. Этот тип архитектуры вводит
данные в параллельную систему управления базой данных (СУБД), в которой
применяются модели MapReduce и Hadoop. Данный тип моделей направлен на то,
чтобы при помощи frontend-сервера приложений сделать
вычислительные возможности прозрачными для конечного пользователя.[17]
Некоторые, но не все реляционные
базы данных с MPP имеют
возможность хранения и управления петабайтами данных. Подразумевается
возможность загружать, отслеживать, поддерживать и оптимизировать использование
больших таблиц данных в системе управления реляционной базой данных (RDBMS).[20]
Программа Анализа
Топологических Данных Управления Перспективных Исследований и Разработок (DARPA) Министерства Обороны США занимается
поиском основной структуры больших наборов данных, и, в 2008 году данная технология
вышла на открытый рынок с основанием компании под названием Ayasdi.[21]
Специалисты, занимающиеся аналитикой больших данных,
обычно с недоверием относятся к более медленной системе совместного хранения,[22] предпочитая ей систему хранения с прямым
подключением (direct-attached storage (DAS)) в ее различных
формах от твердотельной памяти (solid state drive (SSD)) до высокомощного диска SATA, размещенного внутри
параллельных узлов обработки. Общее впечатление от архитектур совместного
хранения: Сети
хранения данных (SAN) и Сетевого хранилища данных (NAS) –
заключается в их относительной медлительности, сложности и высокой стоимости.
Данные свойства не согласуются с системами аналитики больших данных, которые
выигрывают за счет показателей системы, инфраструктуры и низкой стоимости.
Получение информации в режиме реального времени является
одной из определяющих характеристик аналитики больших данных. Задержка, таким
образом, исключается везде, где это возможно и тогда, когда это возможно.
Данные в памяти – это хорошо, данные на вращающемся диске на другом конце оптоволоконного соединения
сети хранения данных (SAN) – нет. Стоимость SAN в масштабе, необходимом для
аналитических приложений, гораздо выше, чем стоимость других способов хранения.
В области аналитики больших данных совместное хранение
имеет как свои достоинства, так и недостатки, но аналитики больших данных по
состоянию на 2011 год не отдавали ему своего предпочтения.[23]
Тема больших данных сегодня является одной из самых
обсуждаемых не только на просторах профессиональных ИТ-сообществ, но и в самых
различных областях деятельности от маркетинга и рекламы до здравоохранения и
законодательства. В данной статье мы представляем на суд сообщества ECM-Journal материал,
посвященной практическому применению больших данных в определенных сферах жизни
общества. Перед тем, как принять решение о дополнении соответствующей
русскоязычной статьи Википедии данным материалом, мы будем рады узнать ваше
мнение о ее содержании, предложения и дополнения.
Критика
Существует два основных направления критики парадигмы больших
данных: в соответствии с первым оспаривается сущность самого подхода, приверженцы
второго ставят под сомнение правильность текущего взаимодействия с большими
данными.
Критика парадигмы
больших данных
«Серьезной проблемой является наша неосведомленность о глубинных
эмпирических микропроцессах, которые ведут к появлению этих типичных сетевых характеристик
Больших данных».[24]
В своей статье Сниждерс, Матцат и Райпс указывают на то,
что часто выдвигаются предположения о математических свойствах, которые могут и
не отражать того, что в действительности происходит на уровне микропроцессов.
Марк Грэхам подверг большой критике утверждение Криса Андерсона
о том, что большие данные ознаменуют конец теории, фокусируясь в частности на
том убеждении, что большие данные всегда будет нужно контекстуализировать в
социальном, экономическом и политическом планах.[25] Несмотря на то, что
компании тратят восьми- и девятизначные суммы на получение аналитической картины
из данных поставщиков и клиентов, менее чем 40% работников имеют какие-то
навыки и необходимые условия для проведения этой аналитической работы. Чтобы
преодолеть аналитический дефицит, «большие данные», вне зависимости от степени понятности
и анализируемости, должны быть дополнены «большим критическим суждением», как
утверждается в статье Harvard Business Review.[26]
Таким же образом было указано, что решения, основанные на
анализе больших данных, будут неминуемо «основаны на информации из прошлого,
или, в лучшем случае, из настоящего».[27] Наполненные
большим количеством данных прошлого опыта, алгоритмы могут предсказывать
будущее развитие, только в случае схожести будущего и прошлого. Если динамика
систем будущего будет меняться, прошлое мало что сможет сказать о будущем. С
этой целью, необходимо иметь четкое представление о динамике систем.
В качестве ответа на критику
было предложено совместить подходы изучения больших данных с определенными
видами компьютерного моделирования, такими как, например, агентное моделирование.[28] Агентное моделирование показывает все более
качественные результаты в области предсказания исхода социального разнообразия
даже неизвестных будущих сценариев методами компьютерного моделирования,
которые основываются на наборе взаимозависимых алгоритмов.[29] К тому же, использование многомерных методов, исследующих
скрытую структуру данных, таких как факторный и кластерный анализ, подтвердили
свою эффективность в качестве аналитических подходов, выходящих далеко за
пределы двумерных подходов (кросс-таблиц), которые обычно применяются по
отношению к меньшим наборам данных. Адвокаты по защите персональной информации обеспокоены
угрозой конфиденциальности личных данных в виду повышающегося уровня хранения и
интеграции данных,
позволяющих идентифицировать личность; экспертные группы выпустили
различные рекомендации для усиления защиты личной информации.[30][31][32]
Критика текущего взаимодействия с большими
данными
Исследователь Дана Бойд выразила
беспокойство по поводу того, что часто большие данные используются с
одновременным пренебрежением такими принципами как выбор репрезентативного
образца. Такой подход
может привести к искажению результатов. Интеграция разнородных источников
данных – некоторых, которые можно рассматривать в качестве "больших
данных" и прочих, которые таковыми считать нельзя – предполагают
значительные логистические и аналитические трудности, но многие исследователи
заявляют, что такие интеграционные процессы вполне могут оказаться новыми
рубежами в науке.[33]
В своей провокационной статье
«Критические вопросы о Больших данных» ("Critical Questions for Big Data")[34]
авторы называют большие данными частью мифологии: «большие наборы данных
предлагают более высокую форму интеллекта и знания [...], окруженную аурой
правды, объективности и точности». Пользователи больших данных часто «теряются
в огромном количестве цифр», и «работа с Большими Данными все еще субъективна,
и то, что она выражает количественно, необязательно претендует на объективную
правду». Последние достижения в области бизнес-аналитики, например, упреждающее
информирование (pro-active reporting), главным образом нацелены
на улучшения в области применения больших данных посредством автоматического
фильтрования бесполезных данных и взаимосвязей.[35]
Большие данные – этот «туманный
термин» долгое время остается на слуху, характеризуясь в то же время некой
«зацикленностью» на предпринимателях, консультантах, ученых и медиа. Показательные
образцы больших данных, такие как Google Flu Trends
(программа Google, предсказывающая динамику
распространения гриппа), не смогли дать правильных прогнозов в последние годы,
увеличив количество вспышек гриппа в два раза. Похожим образом прогнозы вручения
премии Американской киноакадемии и победы на выборах, которые основывались
только на данных из Twitter, чаще оказывались
неверными. Большие данные часто представляют такие же трудности, как и маленькие
данные, и, добавление большего количества данных не решает проблемы искажения
результатов, но может заострить внимание на прочих проблемах. В определенных источниках,
таких как Twitter, данные не показательны в отношении всего
населения, и результаты, полученные из таких источников, могут привести к
ложным выводам. Сервис Google Translate,
который основан на статистическом анализе больших данных текста, выполняет хорошую
работу в части перевода веб-страниц, но в отношении специализированных областей
результаты могут быть весьма невыразительными. С другой стороны, большие данные
могут также вызвать новые проблемы, как, например сложность множественных сравнений:
одновременное тестирование большого набора предположений может привести к
множеству ложных результатов, которые ошибочно оказываются значительными.[36]
Иоаннидис утверждал, что «большая часть опубликованных исследовательских
открытий неверны»[37] в виду такого же воздействия:
когда многие группы ученых и исследователей проводят огромное количество
экспериментов (т.е. обрабатывают большое количество научных данных, хотя
и без применения технологии больших данных), вероятность «значительного»
результата, являющегося в действительности ложным, резко возрастает – того
более, когда публикуются только положительные результаты.
Практика использования
Правительство
В 2012 году администрация президента США Барака Обамы объявила
об Инициативе Исследования и Разработки Больших Данных (“Big Data Research and Development Initiative”), в рамках которой изучались варианты использования
больших данных для решения важных проблем, стоящих перед американским правительством.[1] Инициатива
включала в себя 84 программы по управлению большими данными, которые
впоследствии были внедрены в 6 департаментов.[2]
Аналитика больших данных сыграла важную роль в успешной
предвыборной кампании Барака Обамы 2012 года.[3]
Федеральное правительство США владеет шестью из десяти мощнейших
суперкомпьютеров в мире.[4]
Дата-центр в штате Юта – это центр управления данными,
который в данный момент строится по заказу Агентства Национальной Безопасности
США. Когда строительство завершится, в центре будет осуществляться управление большим
объемом информации, собранной АНБ через интернет. Точный объем хранения неизвестен,
но согласно последним источникам, в центре будет обрабатываться несколько
Экзабайт данных.[5][6][7]
Частный сектор
Интернет-магазин eBay.com использует два хранилища данных на 7.5 петабайт и 40 петабайт,
а также кластер Hadoop на 40 петабайт для осуществления поиска, получения рекомендаций
от покупателей и проведения мерчендайзинговых мероприятий.[8]
Amazon.com каждый день проводит миллионы серверных операций и
обрабатывает запросы, поступающие более чем от пятисот тысяч сторонних
продавцов. Базовая технология, обеспечивающая работу сайта Amazon,
основана на системе Linux, и по состоянию на 2005 год Amazon владел тремя крупнейшими в мире базами данных Linux, с мощностями на 7.8 терабайт, 18.5 терабайт, и 24.7 терабайт.[9]
Компания Walmart
проводит более миллиона клиентских транзакций каждый час. Информация о сделках
заносится в базу данных, в которой насчитывается более 2.5 петабайт (2560 терабайт)
данных – что эквивалентно количеству информации, содержащейся в Библиотеке Конгресса
США, увеличенному в 167 раз.[10]
В распоряжении Facebook 50 миллиардов
фотографий, полученных из базы пользователей.[11]
Система по обнаружению мошеннических операций с кредитными
картами, Falcon Credit Card Fraud Detection System производства компании FICO обеспечивает
защиту 2,1 миллиарда активных счетов по всему миру.[12]
Объем бизнес-данных по всему миру, согласно подсчетам, удваивается
каждые 1,2 года.[13][14]
Агентство по продаже недвижимости Windermere Real Estate использует анонимные GPS-сигналы от ста
миллионов водителей, чтобы помочь покупателям нового дома определить сколько
времени займет поездка с работы и на работу в любое время суток.[15]
Производство
Согласно исследованию глобальных тенденций TCS 2013 Global Trend Study, усовершенствования
в области планирования поставок и повышения качества продукции стали возможны
благодаря применению больших данных, которые в результате принесли ощутимую
пользу производственной отрасли.[16]
Большие данные предоставляют инфраструктуру, способную обеспечить прозрачность
в отрасли обрабатывающей промышленности, которая выражается в способности
обнаружить такие проблемы, как несоответствие показателей работы и доступности
компоненты реальному положению дел.
Концепция прогнозируемого производства, которая
заключается в сокращении времени простоя до нуля и прозрачности процессов,
требует огромного количества данных и современных инструментов прогнозирования
для систематической переработки данных в ценную информацию.[17]
Концептуальная модель прогнозируемого производства начинается с получения таких
сенсорных данных, как акустика, вибрация, давление, ток, напряжение и
информация с датчиков. Большое количество сенсорных данных в дополнение к историческим
составляют большие данные в области производства. Сгенерированные большие
данные выступают в роли входного сырья для инструментов прогнозирования и развития
превентивных стратегий (прогностика, здравоохранение).[18]
Совсем недавно Артем Обухов выпустил блог «Большие
данные и их место в ECM» в котором обстоятельно
расписал что же такое Big Data применительно к ECM. Я предлагаю развить тему и посмотреть на нее с практической
плоскости.
На самом деле, примеров из жизни, где подходы Big Data уже актуальны,
больше, чем мы привыкли думать (просто терминология в России еще не прижилась, и
вопросы не анализируются в разрезе больших данных).
Например, в СМИ с Big Data связаны оценка интересов
пользователей, отслеживание социальной активности, количество перепостов
сообщений, автоматическая подготовка дайджестов и даже новостей.
В медицине большие данные накапливаются за счет
использования электронных медицинских карт, нательных датчиков, данных со
стационарных медицинских приборов. Так при анализе огромных объемов информации
становится возможным прогнозирование эпидемий.
В науке подходы Big Data актуальны в метрологии, геологии,
метеорологии, астрономии.
Спортивный менеджмент завязан на больших данных, к
примеру, за счет анализа больших объемов информации осуществляется прогноз продажи
билетов, а также расчет букмекерских коэффициентов.
И это уже реальная повседневная жизнь!
А что происходит на уровне корпоративных систем, и, в
частности, ECM-системах.
Big Data и ECM
Я буду оперировать фактами и данными, собранными на основе
анализа работы нашей компании (DIRECTUM) в ECM-системе за 10 лет.
Вот некоторые факты:
Число
пользователей системы
Число накопленных
в системе документов, процессов, записей справочников
Вы можете наблюдать, что динамика прироста данных выше,
чем динамика прироста пользователей системы. Чем это было вызвано?
Сотрудники компании стали активнее использовать ECM-систему, стало инициироваться больше бизнес-процессов, как
связанных с классическим делопроизводством (входящие, исходящие,
организационно-распорядительные документы), так и лежащих за его пределами:
работа с договорами, счетами, финансовым архивом, межкорпоративное взаимодействие
и так далее. Как раз неклассические задачи и придали большой рывок.
Удельный объем данных на одного сотрудника все возрастает,
как и их разнообразие. При таком тренде должен наступить момент, когда люди
перестанут справляться с информацией, «потонут» в ней. Но это ли уже «больше
данные» или они виднеются только на горизонте?
Чтобы разобраться, предлагаю разделить все бизнес-задачи
на классические (работа с ОРД, входящими и исходящими документами, несложными
бизнес-процессами), привычные для бизнеса и сотрудников, с четко
зафиксированными регламентами; и неклассические (обработка счетов на оплату и
ведение финансового архив, обработка обращений населения, кредитные заявки и
пр.), зачастую связанные с взрывным ростом объема данных.
Классические задачи документооборота и объемы данных
День
Месяц
Год
Пользователи
1000
1200
3000
Регистрационно-контрольные
карточки (РКК)
5400
130 000
3 888 000
Документы
5500
132 000
3 960 000
Процессы
8400
202 000
6 048 000
Вот пример одной крупной компании, нашего клиента, с
одновременной работой в ECM-системе 1000 пользователей
и динамикой роста подключений до 3000 до конца года. Даже в рамках решения
классических задач за год в системе инициируются миллионы бизнес-процессов, появляются
миллионы документов и РКК. Это гигабайты информации, рост которых будет только
расти. Миллионы – это уже не десятки тысяч!
На таких объемах даже в классических задачах
документооборота можно говорить о начале работы с большими данными. Это и
большой объем с необходимостью обеспечения высокой масштабируемости. И высокая
скорость прироста данных при их разнообразии, которые порождают
бизнес-потребность в получении статистики и анализу работы в режиме реального
времени, а крупные компании не терпят простоя.
Что же происходит при решении неклассических задач?
Неклассические задачи ЭДО и взрывной рост информации
Для примера рассмотрим различные отраслевые задачи
госсектора, банков и ритейла.
Работа госучреждений с обращениями граждан
Автоматизация межведомственного электронного взаимодействия
В рамках реализации пилотного проекта в одном субъекте РФ
по переводу государственных и муниципальных услуг в электронный вид нами было
замерено, что из регионального органа в федеральный центр поступает объем
запросов равный 270 000 обращений в год. Одновременно внутри региона генерируется
70 000 обращений.
И это только пилотный проект на первом десятке госуслуг, с
подключением новых услуг объем вырастет на порядки до миллионов обращений. А
если взять во внимание все субъекты РФ, то объем увеличится еще на два порядка
до сотен миллионов обращений в год.
Работа многофункциональных центров
В потенциале МФЦ должен обрабатывать до 50 000
документов в день или 12 миллионов в год. Объем документов составит более 100 гигабайт
в день или 25 терабайт в год. Это колоссальное количество передаваемой
информации. Все эти данные надо хранить и обрабатывать при новых запросах
граждан.
Потребительские кредиты и банк
Ежедневно в банк средней руки может поступать до
10 000 обращений с заявками на потребительские кредиты. Только приемом
таких заявок в едином центре будут заниматься 200 сотрудников. А после приемки
заявки необходимо обработать, провести через кредитный комитет и вынести по ним
решения о выдаче кредита. Оптимально, если одна заявка будет обрабатываться не в
течение нескольких дней, а за час. Так работает кредитный конвейер.
И если для автоматизации принятия решения существуют
специальные информационные системы, то в области ввода и первоначальной
обработки информации ИТ-решения только-только начинают использоваться (вспомните,
как часто сканируют ваш паспорт при обращении в банк, даже в один и тот же,
даже в одно отделение, к одному операционисту?).
Обмен финансовыми документами в ритейле
Ежемесячно через крупные торговые сети проходит до
100 000 бумажных счетов. Все счета, как правило, обрабатываются в
корпоративном центре.
Одной из важных задач ритейлеры ставят переход на
электронное взаимодействие с контрагентами, потому что уже сейчас текущие
объемы данных ставят в тупик бухгалтерию при необходимости быстро сформировать
подборку документов для встречной или камеральной проверки. Серьезной проблемой
становится также поиск площадей для хранения документов.
А с переходом на электронное взаимодействие при интеграции
с EDI количество документов вырастет
еще больше за счет появления сопроводительной электронной договорной
документации.
Большие данные и поиск новой эффективности
Из приведенных примеров видно, что большие массивы данных
в ECM-системах накапливаются и обрабатываются уже
сейчас (или накопятся в самое ближайшее время) – это документы, бизнес-процессы,
записи справочников, история, права доступа и т.д.
Помимо их хранения, ими необходимо управлять, проводить
анализ и искать новые пути повышения производительности работы. Если с
отчетностью все более или менее понятно (плюсы BI хорошо изучены), то поиск гипотез о поведении пользователей,
вопросы повышения эффективности бизнес-процессов ставят перед ECM-системами
и их потребителями новые интересные задачи.
Рассмотрим эти гипотезы
Анализ данных и вовлечение сотрудников
Правильная работа документами
Можно оценивать частоту работы с документами для принятия
решений об их автоматическом переносе в архив, смене прав доступа. Или даже для
формирования подборок документов, подходящих для определенного круга
сотрудников для текущей работы.
Число обращений
к документу, описывающему технологии и процессы
Пример с документом, описывающим процедуру работы в
компании. Мы видим, что в период появления документа большое количество
сотрудников массово его просматривали. С течением времени поток обращений
снизился и зафиксировался на уровне только новичков (т.к. базовым технологиям
текущие сотрудники уже привыкли следовать). На основе такой статистики система
сама может сделать вывод о необходимости переноса документа в архивное
хранилище, а также включение его в список обязательных документов для всех
новичков.
Профиль загрузки сотрудников
Система сама может оценить профиль загрузки сотрудника, в
том числе статистику работы с документами и выполнения заданий, может посылать
сигналы о необходимости гармонизации загрузки, перераспределения процессов на
коллег.
Статистика о
работах и загрузке сотрудника в ECM-системе
Например, из данных графика система может понять, что в
2009 году сотрудник перешел на руководящую должность, отметив, что его профиль
работы сменился, что он стал выполнять больше «быстрых» заданий, вероятно, и больше
делегировать. Но при этом процент просроченных остался неизменным, но с учетом
роста количества задач, количество просроченных стало угрожающим. Вероятно,
отследив это средствами системы, стоит просигнализировать сотруднику о факте неприемлемого
роста количества просроченных заданий.
«Цифровой след» сотрудника
Еще одна интересная гипотеза – это отслеживание «цифрового
следа» сотрудника, оставленного при работе с различными массивами данных,
взаимодействии с коллегами, прочей рабочей активности. На его основе могут
выявляться поведенческие гипотезы, которые позволят повысить удобство
взаимодействия пользователя с системой, окружением (другими системами, коллегами).
Игровые механики
Внедрение в корпоративное окружение элементов игры может
стать инструментом анализа поведения пользователей, стимулирования правильного
использования функций системы и глубокого их изучения, следования технологиям компании
и повышения эффективности.
Элементы геймификации, внедренные в нашей компании,
подтвердили предположения о том, что новый подход становится стимулом для
сотрудников. Мы также выявили неожиданный факт, что основными участниками стали
не молодые сотрудники, а опытные, в возрасте за 30 лет, а также топ-менеджмент,
который нашел в игре новый элемент поиска активных сотрудников и оценки их эффективности.
Другим механизмом вовлечения может стать пересмотр
принципов работы сотрудников в корпоративных системах – от контента к
взаимодействую внутри рабочих групп. Формирование кругов по интересам (отделы,
крупные проекты, рабочие группы, профессиональные клубы и гильдии), получение
информации от коллег, формирование профессиональных дайджестов, внутренних
чатов – все это инструменты, которые могут помочь в вовлечении сотрудников и
повышении эффективности их работы.
Поиски закономерностей внутри работы плотно
взаимодействующих групп, быстрая передача им полномочий и информации,
закрепление результата, неформальная субординация, принципы хранения и
использования данных – все это становится возможным при включении социальных
механизмов в корпоративную среду.
И, если речь идет о крупной компании, имеющей в штате
тысячи сотрудников, накопление корпоративной статистики и ее анализ должны как
можно быстрее переходить от гипотез к реальным шагам.
В качестве вывода
Оценивайте объемы, разнообразие, скорость прироста и
оперативность анализа своих данных. Если вы ожидаете взрывного роста или приближения
к рубежу Big Data
– для вас это серьезное основание поговорить с поставщиком вашей ECM-системы о поддержке механизмом обработки больших данных.
А также с вашим руководством о возможности повышения эффективности бизнеса за
счет раскрытия новых, неожиданных закономерностей в работе сотрудников с
корпоративной информацией.
***
Материал подготовлен на основе выступления автора на DOCFLOW 2014, а также его статьи, опубликованной на портале CNews.
Законодательство о нотариате в последние годы расширяется новыми сферами применения электронных документов и электронной подписи, НО сегодня не об этом, сегодня о сервисах электронного «нотариата».
Запрос в Яндексе «электронный нотариат» выдаст несколько сервисов (информационных систем), которые предлагают услуги электронного «нотариата». Сразу следует сказать, что данные сервисы к нотариату имеют такое же отношение как и морская свинка к морю. Почему? Потому, что они не нотариусы, за подробностями читаем закон «О нотариате».
Так что же на самом деле предлагают данные сервисы? Рассмотрим пару примеров.
«Электронный нотариус является сертифицированным программным продуктом, что гарантирует неизменность и достоверность всей хранимой информации любого пользователя.
Заверенные сервисом “Электронный нотариус” документы и материалы могут быть направлены в органы любой инстанции и подлежат принятию как доказательства любыми организациями, государственными органами, органами местного самоуправления, правоохранительными и судебными органами.»
Возникают различные вопросы к этому тексту. Вот некоторые из них.
Кем сертифицирован и на что? Есть сертификат «РОСТЕСТ-КАЧЕСТВО», но он не даёт указанных гарантий.
Фраза «… подлежат принятию как доказательства …» тоже звучит слишком громко, например, в ГПК РФ написано:
«Статья 67. Оценка доказательств
1. Суд оценивает доказательства по своему внутреннему убеждению, основанному на всестороннем, полном, объективном и непосредственном исследовании имеющихся в деле доказательств.
2. Никакие доказательства не имеют для суда заранее установленной силы.
3. Суд оценивает относимость, допустимость, достоверность каждого доказательства в отдельности, а также достаточность и взаимную связь доказательств в их совокупности.
«Сервис предоставляет техническую возможность зафиксировать факт существования данных в цифровой форме на определенные дату и время.
Удостоверение даты и времени существования электронных документов - статей, фотографий, аудио, видео и т.д.;
Подтверждения идентичности электронных объектов авторского права.
Основные пользователи системы COPYTRUST это авторы произведений науки и искусства или владельцы интеллектуальной собственности.»
Ищем обоснование деятельности и попадаем в раздел «Почему это легально?»:
«Система является средством технической защиты авторских и смежных прав и действует на основе статей 1299, 1300, 1301 и 1309 ГК РФ.
Для получения цифровых штампов и удостоверения времени мы работаем с Удостоверяющими центрами, имеющими государственную лицензию ФСБ и ФСТЭК России и действующими в соответствии с Федеральным законом Российской Федерации от 6 апреля 2011 г. N 63-ФЗ «Об электронной подписи».
Использование полученных электронных документов в качестве доказательств, в том числе по делам, связанных с защитой нарушенных или оспоренных интеллектуальных прав, возможно в в соответствии с правилами статей. 71, 73 и 79 Гражданского процессуального Кодекса РФ, а также в соответствии со статьями 75 и 82 Арбитражного Процессуального Кодекса РФ.
Услуги пользователям оказываются по договору, предлагаемому в виде публичной оферты в соответствии со статьями. 435-438 ГК РФ, а также главой 39 ГК РФ.»
Что в итоге предлагают данные сервисы?
Сервисы предлагают некоторые услуги, их использование оформляется договором оферты. Сервисы помогают обеспечить доказательства существования электронного контента и ваше авторство электронного контента, НО гарантировать авторство и принятие данных доказательств 3-ми лицами (организациями) они не могут. В случае значимой необходимости обеспечить такие доказательства, на мой взгляд, лучше обратиться к реальному нотариусу.
Электронные документы получат полновесную силу в судебном
делопроизводстве. Минюст обещает, что использовать их можно будет даже в
уголовных процессах.
Все заявления в суд, жалобы и ходатайства можно будет
подавать в электронном виде, в том числе и используя специальные формы на
сайтах судов.
Проект федерального закона «О внесении изменений в отдельные
законодательные акты Российской Федерации» разработан Минюстом в целях
совершенствования правового регулирования применения электронных документов в
уголовном, гражданском и арбитражном судопроизводстве. Документ вносит
изменения в Гражданский процессуальный кодекс РФ, Уголовно-процессуальный
кодекс РФ и Арбитражный процессуальный кодекс РФ - в разделы, касающиеся
условий применения электронных документов в судах. Для УПК РФ это, например,
часть 6 «Бланки процессуальных документов».
Авторы законопроекта в пояснительной записке к нему
объяснили целесообразность планируемых изменений так:
В настоящее время назрела необходимость разработки законопроекта,
который бы наряду с положениями, содержащимися в ранее принятых законодательных
актах и сохраняющими свою актуальность, включал в себя новеллы правового
регулирования, позволяющие в совокупности с прежними нормами создать
современную и эффективную систему электронного документооборота.
Кроме предоставления возможности участникам судебных
процессов подавать в суд заявления и жалобы в электронном виде, законопроект
предусматривает и обратную возможность. Решения, постановления, и, даже,
приговоры судов РФ разных инстанций будут направляться заинтересованным
сторонам в электронном виде, заверенные электронной усиленной подписью судьи и
прокурора. Исключение авторы законопроекта делают лишь для судебных
документов, содержащих государственную тайну. Изменения об этом внесут в ФЗ «Об
обеспечении доступа к информации о деятельности судов в Российской Федерации».
Отдельно авторы законопроекта выделяют возможность
применения в уголовных или арбитражных процессах в качестве доказательств
электронных документов или данных, не имеющих бумажных аналогов. К таким
доказательствам отнесены материалы фото- и киносъемки, аудио- и видеозаписи и
иные носители информации, полученные, истребованные или представленные в
порядке, установленном статьей 86 УПК РФ.
В случае одобрения законопроекта Госдумой РФ, он вступит в
силу с 1 января 2016 года.