Big Data - о чем говорим, что считаем?
Количество публикаций на тему Big Data перевесило все мыслимые размеры. Большинство авторов говорит о том, что Big Data — это наше будущее, как концепция развития ИТ, как новая технология работы с данными, как перспективный рынок, вложение в который сулит нам всевозможные блага. Так насколько же специалистам удалось договориться о понятии в перечисленных аспектах?
Самое короткое определение дает английский словарь (OED), который определяет Big Data как «данные столь большого размера, что их обработка и анализ представляют значительные материально-технических проблемы.» Определение хоть и часто цитируемое, но явно не исчерпывающее. Действительно, понятие «большие» относительно, так же как и понятие «значительные материально-технические проблемы». Недостаток ресурсов при обработке данных существует с момента появления компьютеров.
Более полное определение, которое чаще всего базируется на так называемых трех «V» или четырех и даже пяти V, переписано в сотне статей, но не сильно приближает к конкретизации определения. Вкратце — «3V» говорит о том, что речь идет о наборе данных, который либо имеет большой объем (volume), либо растет высокими темпами (velocity), либо данные поступают из различных источников в разных форматах (variety). Но сколько бы V мы не добавляли к определению, очевидно, что не определив численные параметры этих самых V, нельзя говорить о том, какие проекты отнести к рынку Big Data, а какие нет.
Еще одно мнение сводится к тому, что главное в Big Data проектах — это возможность получить Value, то есть полезный эффект от внедрения технологии. Но в чем выражается этот полезный эффект? В деньгах? А как быть с некоммерческими проектами, научными исследованиями?
Если лирики и физики могут говорить об определении в относительных категориях, то аналитические компании, которые исследуют рынок, должны договориться о том, что они измеряют.
Понимая, что без количественного критерия нельзя определить понятие «рынок больших данных», аналитическая компания IDC пытается ввести количественные параметры. В частности утверждается, что если объем структурируемых данных достигает 100 терабайт, то это достаточное условие для того, чтобы проект по работе с таким объемом данных можно было отнести к категории Big Data. Аналогично для параметра «скорость потокового поступления данных» устанавливается граница в 60 Гбит в секунду. При этом очевидно, что прогнозируя развитие рынка на пятилетку и говоря о том, что данные в мире растут экспоненциально, трудно зафиксировать границы. Может быть, проще ввести понятие Big Data, описывая набор технологий, которые позволяют отнести тот или иной проект к категории Big Data?
Если почитать материалы, публикуемые по поводу Big Data, можно найти массу упоминаний, что сложность обработки больших наборов данных с помощью традиционных СУБД привела к появлению целого ряда нереляционных баз данных (NoSQL), в которых упор делается на высокую масштабируемость. Но можно ли однозначно связать проекты Big Data с NoSQL? По всей видимости, нет — достаточно взглянуть на структуру затрат на проекты Big Data в интерпретации аналитической компании Wikibon, чтобы убедиться, что вклад проектов, базирующихся на SQL базах данных, более чем в два раза больше чем на NoSQL. Сошлемся не только на аналитические исследования, процитируем Майкла Видениуса — технологического гуру, автора оригинальной версии открытой СУБД MySQL: «Я считаю, что большинство людей стремятся использовать NoSQL главным образом из-за „шумихи“ вокруг этой технологии. Большинство компаний реально не имеют больших объемов данных, таких как у Facebook и Google, и они не смогут позволить себе нанять специалистов для настройки и постоянной разработки базы. Реляционные базы данных — SQL — никуда не денутся. NoSQL просто не сможет заменить их».
В разговорах о Big Data все чаще упоминается Hadoop, но очевидно, что проекты по Big Data не ограничиваются использованием Hadoop, также как и не ограничиваются использованием Open source-модели. Уже упоминаемая компания IDC подчеркивает, что построение проекта из категории Big Data возможно на базе множественных комбинаций ПО, аппаратного обеспечения и сервисов, посредством которых реализуются успешные решения по анализу «больших данных».
Понимая, что краткие определения несостоятельны, аналитики дают все более подробные толкования. Определение Wikibon больших данных содержит несколько частей.
Технологическая часть определения определяет большие данные как наборы данных, размер которых, тип и скорости создания делают работу с последними неэффективной при использовании обработки и анализа на базе традиционных технологий баз данных и связанных с ними инструментов как в плане затрат финансовых, так и временных.
Вторая часть определения говорит о наличии человеческого фактора. Ниже я привожу перевод близко к тексту: «...проекты из категории Big Data требуют исполнителей, которые базируются на научно-исследовательских и экспериментаторских подходах к вопросам обработки и анализа данных — подходах, которые замещают интуитивные методы управления на механизм принятия решений, основанный на анализе данных, а также предполагают готовность аналитиков подвергать проверке правила управления, основанные на устоявшихся предположениях. Этот человеческий фактор не менее важен, чем перечисление технологий, на которых базируются коллективы, работающие с большими данными». Опять-таки определение опирается на весьма субъективные и относительные понятия. Видимо, понимая это, Wikibon также приводит перечень технологий продуктов и услуг, на которых по ее мнению базируются Big Data проекты:
Hadoop и соответствующее аппаратное обеспечение и услуги;
Non-Hadoop платформы больших данных, программное обеспечение и соответствующие аппаратные и услуг;
NoSQL СУБД и сопутствующее оборудование и услуги;
Хранилища данных нового поколения / Аналитическое программное обеспечение сопутствующего оборудования и услуг;
In memory базы данных для работы с большими данными;
платформы интеграции данных и обеспечения качества данных, инструменты для развертывания решений в области больших данных;
платформы, предоставляющие инструменты в области продвинутой аналитики;
платформы разработки приложений, инструменты и услуги, используемые для создания систем по работе с большими данными;
платформы бизнес-аналитики и визуализации данных, инструменты и услуги для создания систем по работе с большими данными;
аналитические и транзакционные приложения, направленные на работу с большими данными; Big Data сервисы, предоставляемые в виде облачных услуг.
другие типы услуг, включая профессиональные сервисы и обучение для поддержки Big Data.
Список явно требует уточнений, чтобы четко определить границы рынка.
Так смогли ли аналитики договориться о том, сколько тратят компании в мире на проекты в области Big Data?
Согласно прогнозам Wikibon, оборот от предоставления технологий и сервисов компаний для построения Big Data решений составит около 28 млрд долларов в 2014-м году. Согласно исследованиям IDC оборот от предоставления технологий и сервисов компаний для построения Big Data решений составит около 16 млрд долларов в 2014-м году. Согласно исследованиям ABI Research глобальные расходы организаций на проекты в области Big Data уже в 2013-м году превысил 31 млрд. Похоже, что методики аналитических компаний определения рынка Big Data тоже разнятся — иначе разброс в оценках был бы не столь велик. Сравним категории рынка, которые выделяет Wikibon и IDC. В упомянутые 28 млрд долл Wikibon включила следующие категории см рис 1., а в свои 16,5 млрд долл IDC включила свои сегменты рынка рис 2.
Рис 1. Структура рынка Big Data 2014, Источник Wikibon
Рис 2. Структура рынка Big Data 2014, Источник IDC
Уже по сегментации видно, что методики у компаний различны. Впрочем, в обоих случаях, очевидно, что услуги на построение проектов типа Big Data составляют большую часть от всей суммы, на этом сходство заканчивается. Похоже, без покупки самих отчетов и получения деталей исследования опираться на отдельные цифры невозможно.
Итак, не отрицая необходимости изучения такого важного явления как BigData, похоже следует констатировать, что нам еще предстоит определить, что относится к технологиям Big Data, к рынку Big Data и как же мы определяем само понятие «Большие Данные».
А что думает читатель?