Совсем недавно говоря о больших данных было принято вспоминать фразу «Big data is like teen sex. Everybody is talking about it, everyone thinks everyone else is doing it, so everyone claims they are doing it», ссылаясь на то, что никто особенно не понимает, что такое эти самые «большие данные». Формализовать и подробно объяснить этот тренд прекрасно удалось Виктору Майер-Шанбергеру и Кеннету Карьеру в книге «Большие данные».
Если кратко передать основную идею Big Data, то она заключается в том, что раньше сбор и обработка больших объемов данных были недоступны человеку и мощнейшие умы работали над разработкой подходов к принятию решений при небольших объемах данных. Статистика, теория вероятность, позволяли уточнять результаты вычислений за счет получения большого количества точек данных. Big Data же возникает тогда, когда для обработки доступны огромные количества измерений. Как пишут авторы книги «N = все».
«Большие данные» вносят новое веяние в прогнозирование результатов и нахождение корреляций. Если раньше ученые работали над установлением причинно-следственной связи, то теперь можно бросаться с головой в выводы и прогнозы, не разбираясь в причинах. Действительно, если проанализировав сообщения в социальных сетях, можно сделать делать выводы о вероятности возврата кредита потенциальным клиентом, и эти прогнозы позволяют банкам увидеть снижение количестве невозвратов, то, в конечном счете, банку как потребителю совершенно все равно, почему, возможно, «любовь к котикам» плохо отражается на кредитной истории.
Авторы книги «Большие данные» уделяет значительное время рассмотрению примеров использования больших объемов данных уже сегодня, убеждая читателя в том, что мы уже живем в мире Big Data. Большие данные помогают экономить на ремонте автомобилей в парке почтовой службы UPS, уменьшают затраты на ремонт коммуникаций в Нью-Йорке, позволяют Walmart продавать больше товаров, пользователям Bing в США экономить на авиабилетах и прочее и прочее…
Анализ и прогнозирование поисковых запросов уже давно работает. Простой пример из моей жизни, который несказанно радует меня день ото дня, несмотря на то, что я давно знаю как это работает: когда я собираюсь немного побренчать на гитаре и начинаю искать в Google аккорды любимых песен, Google «понимает» мое желание на основании поисковых запросов и уже по одному введенному слову предлагает найти аккорды как раз той песни, которую я собирался искать. При использовании iPad и маленькой экранной клавиатуры такой подход экономит большое количество времени.
Правда, стоит отметить и опасности больших данных. Авторы книги предлагают не заиграться с анализом данных, чтобы не начать наказывать людей, еще не совершивших плохих поступков, как это происходило в киноленте «Особое мнение». Кроме того, авторы отмечают и риски утраты конфиденциальности, рассказывая истории как на основании данных поисковых запросов или данных развлекательных сервисов можно вычислить конкретного человека, его пристрастия и даже разобраться в его личной жизни.
В конечном итоге, авторы рисуют безрадостную картину, если дать волю Big Data развиваться бесконтрольно. Тотальный контроль и власть «баронов данных», который придут на смену «оружейным баронам». Чтобы этого не допустить, необходим контроль над сбором и хранением информации.
Еще один неприятный момент с использованием Big Data вскрывается и в моем примере с поисковыми запросами. Человек, который ищет информацию по определенной теме, постепенно замывается в мире собственных запросов и запросов других людей. Вместо поиска новой информации и нового взгляда на вещи, человек идет той же дорожкой, что и все остальные. Учитывая все худшее качество научного образования, рисуется не радостная картина.
С другой стороны, тем ценнее становятся люди с нестандартным мышлением для поиска новых паттернов и тем важнее роль инженеров-алгоритмистов, способных разработать методы анализа бесконечных потоков данных.