3 больших проблемы больших данных - Den Reymer

3 больших проблемы больших данных

В 2014 году Большие Данные были на пике интереса у инвесторов. Инвесторы продолжают вкладывать деньги в новые технологические компании и решения, а организации переходят от пилотных проектов к системному процессу работы с данными — организацией хранения, повышением доступности и к коммерческому применению результатов анализа накапливаемых данных. Но если данные настолько ценны, то почему еще не все компании научились извлекать из них ценные знания?

Барьеры, как и в большинстве проектов, лежат в сфере человеческих факторов. Можно выделить 3 ключевых проблемы больших данных, требующих пристального внимания.

При выстраивании процессов работы с большими данными существуют следующие «слабые зоны»:

  1. Недоступность данных
  2. Нехватка компетенций
  3. Отсутствие коммуникаций

Что скрывается под каждой из проблем и какие пути решения существуют?

Недоступность данных

Если бы организация могла воспользоваться всем потенциалом данных, которые уже у нее есть, то она бы повысила свою прибыльность в разы.

Проблема разрозненности данных, отсутствие централизованного места хранения и анализа существует многие годы. Построение централизованных хранилищ и выстраивание Сервисно-Ориентированной Архитектуры (SOA) нацелены на решение именно задачи — получения необходимой информации для принятия бизнес-решения. Но очень часто данные продолжают лежать внутри системы, в которой они были сформированы и остаются недоступными для других систем.

А если информация собирается в единое хранилище, которая затем используется для принятия бизнес-решений, то, как правило, она проходит предварительную фильтрацию и обработку, и сохраняется в усеченном виде. В большинстве случаев хранимая информация позволяет ответить на вопросы о событиях, которые произошли в прошлом, для которых явно был сформирован вопрос заранее.

В хранилище будут находиться только те данные, которые непосредственно необходимы для ответа на поставленные ранее вопросы. Если вопрос изменяется, то очень часто может потребоваться дополнительная работа по подтягиванию данных из источников, либо изначальное сохранение данных в «сыром виде».

При работе с большими данными мы все больше сталкиваемся с необходимостью хранить «сырые» данные, а также иметь возможность доступа к данным в реальном времени.

Хорошим примером является сохранение всей доступной информации о клиенте, для понимания его интересов и намерений в реальном времени.

Нехватка компетенций

В типичной организации число ИТ специалистов существенно превышает число аналитиков. А если говорить про задачи анализа больших данных, то роль Data Scientist в наших компаниях пока еще очень редка. Хотя именно эта роль ответственна за успешную проработку и подтверждение гипотез.

Если судить по Google Trends, то эта одна из наиболее актуальных тем в интернете, непрерывно растущая последние годы. Но для того, чтобы такие специалисты появились в компании приходится приложить немало усилий как при поиске уже готовых сотрудников, так и при выращивании внутри компании.

Для устойчивого развития практики работы с Большими Данными придется идти обоими путями. И постоянно искать способы и новые технологии, снижающие трудоемкость задач выполняемых Data Scientist-ами.

Отсутствие коммуникаций

Проблема коммуникации между техническими специалистами и бизнес-заказчиками существует в любом корпоративном проекте. Коммуникационный барьер между бизнесом и ИТ пытаются решить различными способами: и предлагая методологии совместной работы, и автоматизируя процессы сбора требований, и визуализируя требования на понятном обеим сторонам языке диаграмм. Именно проблема коммуникаций является причиной большинства неудачных проектов.

Если мы приступаем к анализу больших данных, то проблема коммуникаций становится еще более острой. Методы машинного обучения очень часто могут давать неожиданные результаты, в которые сложно поверить на уровне интуиции. Из-за не возможности глубокого понимания технологии работы, очень часто встречается скептицизм со стороны бизнеса.

Для его преодоления необходима тесная работа в команде, еще более доверительная, чем раньше.

Итак. Чтобы справиться с этими 3 барьерами необходимо:

  1. Сделать данные доступными для анализа. Собирать и предоставлять возможность работы с ними;
  2. Предоставить Data Scientist-ам технологии и инструменты повышающие их продуктивность и упрощающие процесс анализа и извлечения знаний из данных;
  3. Сформировать в организации культуру, позволяющую наладить более эффективное взаимодействие между бизнес-пользователями, аналитиками и Data Scientist-ами.

Сегодня существует множество подходов и инструментов, позволяющих решить технические задачи как в периметре заказчика, так и в облаке.

Примеры работы с большими данными по сервисной модели, я уже представлял ранее.

Сегодня решения класса Data-as-a-Service позволяют существенно снизить объем первоначальных инвестиций, необходимых для старта работ с большими данными.

Но коммуникационный барьер все равно придется преодолевать совместными кропотливыми усилиями в ежедневных баталиях между Бизнесом и ИТ.

Именно поэтому ИТ-проекты никогда не будут скучными!

Пролистать наверх