Мало кто сомневается в том, что данные — это один из самых ценных активов, которыми может обладать компания. Но зачастую бизнес сталкивается с трудностями, когда пытается анализировать информацию, разбросанную по десяткам разрозненных информационных систем.
Разобщенность данных — одна из ключевых проблем, которыми сталкиваются компании. Такой вывод содержится в докладе «О Положении Данных и Что Дальше», который подготовили компании Red Hat и Starburst. Самые большие сложности возникают при попытках использовать данные, которые создаются в режиме реального времени.
В основу доклада лег опрос представителей 400 компаний из различных отраслей экономики и регионов мира. Он подтверждает тренд, отмеченный в предыдущем докладе: в компаниях продолжается процесс отказа от единой централизованной модели хранения данных и переход децентрализованным системам. Сейчас, в среднем, у компании работают от 4 до 6 различных хранилищ данных. А у некоторых их число достигает 12. В докладе за прошлый год отмечалось, что у 52% опрошенных компаний функционируют 5 или больше различных платформ для хранения данных.
Существует множество причин, по которым количество разрозненных платформ данных в компании растет. Самая очевидная из них: сейчас как никогда легко создать новое хранилище данных из-за распространения облачных технологий.
«Начиная с 2016 года облачные технологии позволяют очень легко и достаточно дешево создавать новые хранилища данных, — прокомментировал доклад вице-президент Starburst по системам данных Эдриан Эстала: “Хранение данных дёшево” — эту фразу можно было услышать очень часто. Вы могли буквально за пару дней создать новую среду и оплатить её с помощью кредитной карты.»
Вдобавок к этому, объем генерируемых сейчас данных гораздо больше, чем несколько лет назад. И зачастую компании не знают, что с ними делать. А это, в свою очередь неизбежно приводит к гигантскому росту сферы хранения, так как во многих компаниях считают нужным всё сберечь и только потом искать способы применения новых данных.
«Датчики от устройств, подключенных к интернету вещей, и мобильные устройства начали предоставлять гораздо больше данных, чем мы когда-либо могли себе представить, — так описывает сложившуюся ситуацию Эстала: В Forbes приводили знаменитое наблюдение о том, что 90% данных было создано за последние два года. А в этом году мы, вероятно, создали ещё столько же лишь за один месяц. Если данные — это новая нефть, то стоит отметить, что на создание нефти ушло 50 миллионов лет, а данные удваиваются за месяц».
Словосочетание «платформа данных» может в контексте доклада означать что угодно — от комплексной аналитической системы до простого хранилища неорганизованного массива информации. Чем больше таких платформ в ИТ-системе компании, тем больше сложностей возникает с раскрытием потенциала больших данных. Особенно ярко они проявляются при обработке так называемых «потоковых» данных, которые создаются в режиме реального времени. Эти данные могут крайне полезными, например, компания может получать детальное представление о структуре продаж в любой момент времени, а не ждать, пока будут готовы ежемесячные или еженедельные отчеты.
На вопрос о том, какие типы новых данных компании планируют собирать в следующем году, 65% респондентов назвали своим приоритетом потоковые данные, за ними следуют видео и данные о событиях, которые набрали по 60% голосов.
Также в отчете отмечается, что примерно половине опрошенных компаний требуется более 24 часов для создания нового пайплайна информации для перемещения и преобразования данных между локациями, а затем еще как минимум 24 часа для ввода пайплайна в эксплуатацию и подключения его к существующим системам.
Это является одной из основных проблем, с которыми сталкиваются компании, стремящиеся к пониманию бизнеса в режиме реального времени. Поэтому отрасль переходит от конвейерного подхода к децентрализованной модели — или, как часто её называют сегодня, «сети данных». Такая сеть, по сути, делает данные доступными для всех и каждого в компании, уделяя особое внимание скорости, и предоставляет возможность доступа к данным непосредственно у их источника, убирая необходимость в их стандартизации и записи в единое хранилище.
Отчет показал, что, хотя темпы изменений отличаются от региона к региону, компании в целом планируют в ближайшие месяцы переходить на более децентрализованную архитектуру хранения данных.
По словам Эсталы, одним из самых больших сюрпризов, которые показал отчет этого года, стала скорость, с которой организации движутся по пути децентрализации.
«Переход к децентрализованной модели произошел очень, очень быстро, — удивляется Эстала: Всего год назад мы вели сложные споры о том, какой путь лучше выбрать. Крупные облачные провайдеры, к которым были «привязаны» многие организации, были непреклонны в том, что централизация — это единственный возможный путь. Переход к децентрализации обусловлен требованиями бизнеса, а не ИТ-отделов. В ИТ-отделах поняли, что они не могут сохранить централизованную архитектуру и одновременно добиваться таких показателей эффективности, которых требует бизнес.»
Компании начинают ставить на первое место более быстрый доступ к данным, который отчасти является ответом на проблемы, вызванные идущей уже несколько последних лет пандемией. В отчете отмечается, что главной причиной перехода к аналитике в режиме реального время стала поддержка уровня вовлеченности клиентов (33%). За ней следуют желание выявить возможные риски и изменения конъюнктуры рынка (29%) и необходимость сохранения высокого уровня вовлеченности сотрудников (29%).
Среди других заметных тенденций, отмеченных в отчете, можно выделить продолжение курса на переход к «облаку». 59% респондентов ответили, что их данные хранятся в «облаке», против 41% респондентов, которые размещают данные на локальных серверах. Это заметно выше результатов, зафиксированных в прошлогоднем отчете: 56% против 44%.
Помимо свидетельства растущей роли облачных вычислений, такие результаты также служат своевременным напоминанием о том, что мульти-облачные и гибридные модели хранения данных остаются популярной альтернативой для компаний, которые не хотят или не в состоянии осуществить полный переход в какое-то одно «облако». 43% респондентов посчитали «гибкость мульти-облачных решений» главным фактором, повлиявшим на решение о покупке облачного хранилища данных. А доля компаний, которые считают важной «работу в гибридном режиме», выросла по сравнению с прошлогодним отчетом с 26% до 34%.