Тема больших данных сегодня является одной из самых
обсуждаемых не только на просторах профессиональных ИТ-сообществ, но и в самых
различных областях деятельности от маркетинга и рекламы до здравоохранения и
законодательства. В данной статье мы представляем на суд сообщества ECM-Journal материал,
посвященной практическому применению больших данных в определенных сферах жизни
общества. Перед тем, как принять решение о дополнении соответствующей
русскоязычной статьи Википедии данным материалом, мы будем рады узнать ваше
мнение о ее содержании, предложения и дополнения.
Критика
Существует два основных направления критики парадигмы больших
данных: в соответствии с первым оспаривается сущность самого подхода, приверженцы
второго ставят под сомнение правильность текущего взаимодействия с большими
данными.
Критика парадигмы
больших данных
«Серьезной проблемой является наша неосведомленность о глубинных
эмпирических микропроцессах, которые ведут к появлению этих типичных сетевых характеристик
Больших данных».[24]
В своей статье Сниждерс, Матцат и Райпс указывают на то,
что часто выдвигаются предположения о математических свойствах, которые могут и
не отражать того, что в действительности происходит на уровне микропроцессов.
Марк Грэхам подверг большой критике утверждение Криса Андерсона
о том, что большие данные ознаменуют конец теории, фокусируясь в частности на
том убеждении, что большие данные всегда будет нужно контекстуализировать в
социальном, экономическом и политическом планах.[25] Несмотря на то, что
компании тратят восьми- и девятизначные суммы на получение аналитической картины
из данных поставщиков и клиентов, менее чем 40% работников имеют какие-то
навыки и необходимые условия для проведения этой аналитической работы. Чтобы
преодолеть аналитический дефицит, «большие данные», вне зависимости от степени понятности
и анализируемости, должны быть дополнены «большим критическим суждением», как
утверждается в статье Harvard Business Review.[26]
Таким же образом было указано, что решения, основанные на
анализе больших данных, будут неминуемо «основаны на информации из прошлого,
или, в лучшем случае, из настоящего».[27] Наполненные
большим количеством данных прошлого опыта, алгоритмы могут предсказывать
будущее развитие, только в случае схожести будущего и прошлого. Если динамика
систем будущего будет меняться, прошлое мало что сможет сказать о будущем. С
этой целью, необходимо иметь четкое представление о динамике систем.
В качестве ответа на критику
было предложено совместить подходы изучения больших данных с определенными
видами компьютерного моделирования, такими как, например, агентное моделирование.[28] Агентное моделирование показывает все более
качественные результаты в области предсказания исхода социального разнообразия
даже неизвестных будущих сценариев методами компьютерного моделирования,
которые основываются на наборе взаимозависимых алгоритмов.[29] К тому же, использование многомерных методов, исследующих
скрытую структуру данных, таких как факторный и кластерный анализ, подтвердили
свою эффективность в качестве аналитических подходов, выходящих далеко за
пределы двумерных подходов (кросс-таблиц), которые обычно применяются по
отношению к меньшим наборам данных. Адвокаты по защите персональной информации обеспокоены
угрозой конфиденциальности личных данных в виду повышающегося уровня хранения и
интеграции данных,
позволяющих идентифицировать личность; экспертные группы выпустили
различные рекомендации для усиления защиты личной информации.[30][31][32]
Критика текущего взаимодействия с большими
данными
Исследователь Дана Бойд выразила
беспокойство по поводу того, что часто большие данные используются с
одновременным пренебрежением такими принципами как выбор репрезентативного
образца. Такой подход
может привести к искажению результатов. Интеграция разнородных источников
данных – некоторых, которые можно рассматривать в качестве "больших
данных" и прочих, которые таковыми считать нельзя – предполагают
значительные логистические и аналитические трудности, но многие исследователи
заявляют, что такие интеграционные процессы вполне могут оказаться новыми
рубежами в науке.[33]
В своей провокационной статье
«Критические вопросы о Больших данных» ("Critical Questions for Big Data")[34]
авторы называют большие данными частью мифологии: «большие наборы данных
предлагают более высокую форму интеллекта и знания [...], окруженную аурой
правды, объективности и точности». Пользователи больших данных часто «теряются
в огромном количестве цифр», и «работа с Большими Данными все еще субъективна,
и то, что она выражает количественно, необязательно претендует на объективную
правду». Последние достижения в области бизнес-аналитики, например, упреждающее
информирование (pro-active reporting), главным образом нацелены
на улучшения в области применения больших данных посредством автоматического
фильтрования бесполезных данных и взаимосвязей.[35]
Большие данные – этот «туманный
термин» долгое время остается на слуху, характеризуясь в то же время некой
«зацикленностью» на предпринимателях, консультантах, ученых и медиа. Показательные
образцы больших данных, такие как Google Flu Trends
(программа Google, предсказывающая динамику
распространения гриппа), не смогли дать правильных прогнозов в последние годы,
увеличив количество вспышек гриппа в два раза. Похожим образом прогнозы вручения
премии Американской киноакадемии и победы на выборах, которые основывались
только на данных из Twitter, чаще оказывались
неверными. Большие данные часто представляют такие же трудности, как и маленькие
данные, и, добавление большего количества данных не решает проблемы искажения
результатов, но может заострить внимание на прочих проблемах. В определенных источниках,
таких как Twitter, данные не показательны в отношении всего
населения, и результаты, полученные из таких источников, могут привести к
ложным выводам. Сервис Google Translate,
который основан на статистическом анализе больших данных текста, выполняет хорошую
работу в части перевода веб-страниц, но в отношении специализированных областей
результаты могут быть весьма невыразительными. С другой стороны, большие данные
могут также вызвать новые проблемы, как, например сложность множественных сравнений:
одновременное тестирование большого набора предположений может привести к
множеству ложных результатов, которые ошибочно оказываются значительными.[36]
Иоаннидис утверждал, что «большая часть опубликованных исследовательских
открытий неверны»[37] в виду такого же воздействия:
когда многие группы ученых и исследователей проводят огромное количество
экспериментов (т.е. обрабатывают большое количество научных данных, хотя
и без применения технологии больших данных), вероятность «значительного»
результата, являющегося в действительности ложным, резко возрастает – того
более, когда публикуются только положительные результаты.
Практика использования
Правительство
В 2012 году администрация президента США Барака Обамы объявила
об Инициативе Исследования и Разработки Больших Данных (“Big Data Research and Development Initiative”), в рамках которой изучались варианты использования
больших данных для решения важных проблем, стоящих перед американским правительством.[1] Инициатива
включала в себя 84 программы по управлению большими данными, которые
впоследствии были внедрены в 6 департаментов.[2]
Аналитика больших данных сыграла важную роль в успешной
предвыборной кампании Барака Обамы 2012 года.[3]
Федеральное правительство США владеет шестью из десяти мощнейших
суперкомпьютеров в мире.[4]
Дата-центр в штате Юта – это центр управления данными,
который в данный момент строится по заказу Агентства Национальной Безопасности
США. Когда строительство завершится, в центре будет осуществляться управление большим
объемом информации, собранной АНБ через интернет. Точный объем хранения неизвестен,
но согласно последним источникам, в центре будет обрабатываться несколько
Экзабайт данных.[5][6][7]
Частный сектор
Интернет-магазин eBay.com использует два хранилища данных на 7.5 петабайт и 40 петабайт,
а также кластер Hadoop на 40 петабайт для осуществления поиска, получения рекомендаций
от покупателей и проведения мерчендайзинговых мероприятий.[8]
Amazon.com каждый день проводит миллионы серверных операций и
обрабатывает запросы, поступающие более чем от пятисот тысяч сторонних
продавцов. Базовая технология, обеспечивающая работу сайта Amazon,
основана на системе Linux, и по состоянию на 2005 год Amazon владел тремя крупнейшими в мире базами данных Linux, с мощностями на 7.8 терабайт, 18.5 терабайт, и 24.7 терабайт.[9]
Компания Walmart
проводит более миллиона клиентских транзакций каждый час. Информация о сделках
заносится в базу данных, в которой насчитывается более 2.5 петабайт (2560 терабайт)
данных – что эквивалентно количеству информации, содержащейся в Библиотеке Конгресса
США, увеличенному в 167 раз.[10]
В распоряжении Facebook 50 миллиардов
фотографий, полученных из базы пользователей.[11]
Система по обнаружению мошеннических операций с кредитными
картами, Falcon Credit Card Fraud Detection System производства компании FICO обеспечивает
защиту 2,1 миллиарда активных счетов по всему миру.[12]
Объем бизнес-данных по всему миру, согласно подсчетам, удваивается
каждые 1,2 года.[13][14]
Агентство по продаже недвижимости Windermere Real Estate использует анонимные GPS-сигналы от ста
миллионов водителей, чтобы помочь покупателям нового дома определить сколько
времени займет поездка с работы и на работу в любое время суток.[15]
Производство
Согласно исследованию глобальных тенденций TCS 2013 Global Trend Study, усовершенствования
в области планирования поставок и повышения качества продукции стали возможны
благодаря применению больших данных, которые в результате принесли ощутимую
пользу производственной отрасли.[16]
Большие данные предоставляют инфраструктуру, способную обеспечить прозрачность
в отрасли обрабатывающей промышленности, которая выражается в способности
обнаружить такие проблемы, как несоответствие показателей работы и доступности
компоненты реальному положению дел.
Концепция прогнозируемого производства, которая
заключается в сокращении времени простоя до нуля и прозрачности процессов,
требует огромного количества данных и современных инструментов прогнозирования
для систематической переработки данных в ценную информацию.[17]
Концептуальная модель прогнозируемого производства начинается с получения таких
сенсорных данных, как акустика, вибрация, давление, ток, напряжение и
информация с датчиков. Большое количество сенсорных данных в дополнение к историческим
составляют большие данные в области производства. Сгенерированные большие
данные выступают в роли входного сырья для инструментов прогнозирования и развития
превентивных стратегий (прогностика, здравоохранение).[18]