Пульс технологий

Установите кодовое слово в Супернике!

* с его помощью вы всегда сможете войти в приложение, если, например, забыли пароль или сменили телефон

Технологии машинного обучения улучшают базы данных

Развитие технологий машинного обучения открывает возможности для улучшения систем хранения информации. Одной из компаний, которая занимается работой в этом направлении, является SeMI Technologies. Её генеральный директор Боб Ванлуйт полагает, что сейчас происходит настоящая революция в методах построения баз данных. В статье на портале venturebeat он выделяет несколько фаз развития этой области компьютерных наук.

Установите кодовое слово в Супернике

Устанавливай приложение «Цифроникель». Проходи обучение в игровой форме. Копи знания, получай баллы, участвуй в конкурсах и получай ценные призы.

КАК УСТАНОВИТЬ
КОДОВОЕ СЛОВО?

В начале был мир SQL, где все данные аккуратно хранились в прямоугольных таблицах. Затем произошла революция NoSQL, которая сделала модель документов более гибкой, а каждая запись в базе данных не обязательно должна была содержать одинаковые поля. Теперь компания SeMI Technologies выводит на рынок свою разработку — систему Weaviate. Она является одной из новых моделей баз данных, в которых объединяются возможности машинного обучения и инновационных подходов к хранению данных.

Новая модель открывает путь для использования возможностей алгоритмов искусственного интеллекта в базах данных и предоставляет более гибкую поисковую систему, которая не ограничивается поиском точных совпадений. В то время как традиционные базы данных требуют правильного написания имен или точного совпадения чисел, чтобы найти запись, Weaviate может найти записи, которые наиболее похожи на требуемое.

Что значит быть похожим? Для многих пользователей этот вопрос до сих пор остается открытым. Самое сложное заключается в том, чтобы найти способ определения, насколько близки или далеки друг от друга два фрагмента данных. Поиск наиболее близких записей в базе данных начинается с поиска метрики или единицы расстояния между записями в каком-то многомерном пространстве, определенном с помощью алгоритмов ИИ.

Одним из способов является перевод любых значений, строк или чисел, хранящихся в базе данных, в вектор в многомерном пространстве. Сейчас большинство векторных баз данных умеют работать только с текстовой информацией. Но эта ситуация быстро меняется. Появляются системы, которые способны обрабатывать изображения, и другие форматы данных.

По словам Ванлуйта, после экспериментов с изображениями и аудио, некоторые пользователи начинают импортировать и другие данные, такие как последовательности ДНК или результаты геологических исследований. Поиск по геному очень удобно проводить в векторных базах данных, поскольку некоторые генеалогические исследования зависят от неточных совпадений. Исследователи могут проследить движение популяционных групп во времени и в пространстве, что открывает возможности для изучения истории человечества с помощью данных ДНК.

Постоянно появляются и другие сценарии использования векторных баз данных, так как пользователи придумывают всё новые метрики сходства. В одном из предварительных экспериментов поверхность Земли разбивали на небольшие квадраты и оценивали, насколько вероятно их затопление. Исследователи надеются создать новые модели, которые позволят лучше оценивать страховые риски и управлять инвестициями в условиях глобального потепления.

Ванлуйт уверен, что новая поисковая система Weaviate и SeMI обеспечивает более быстрое сопоставление и повышенную эффективность для больших наборов данных по сравнению с традиционными системами хранения информации. Некоторые проекты планируют использовать новую базу данных как основу для поиска, а затем экспортировать эти потенциальные ответы в модель машинного обучения, которая будет оценивать их и выбирать лучший ответ.

«Если вы проделаете это над тысячей документов, то все будет в порядке. Вы ничего не заметите, — отмечает Ванлуйт: Но вы не можете искать во всей базе данных и выполнять такие задачи, как ответы на вопросы, за несколько миллисекунд по всему набору имеющейся информации.»

Конкуренция в этой сфере обостряется. Существует ещё несколько векторных баз данных с открытым исходным кодом, которые предлагают аналогичные функции. К примеру, Milvus также поддерживает поиск похожих результатов в векторных данных. Pinecone.io тесно интегрирован с Kafka от Apache и предлагает поиск сходства в потоковых данных. Vespa ориентирована на текстовые приложения и использование метрик сходства для выработки рекомендаций.

Облачные компании также включают эту опцию в свои продукты для хранения данных. Например, Google предлагает Vertex AI Matching Engine, который помогает использовать набор инструментов для машинного обучения AutoML.

Компании, занимающиеся традиционными базами данных, также начинают интегрировать в свои продукты алгоритмы ИИ. Oracle, например, предлагает коллекцию алгоритмов ИИ и хвастается высокой скоростью обучения на выборках из своих баз данных. IBM провела ребрендинг своей классической базы данных db2 как "базы данных ИИ" и подчеркивает в своей рекламе использование машинного обучения для повышения производительности запросов и осуществление запросов с оценкой уверенности в точности ответа.

Все хотят найти способ соответствовать запросам клиентов, которым всё чаще приходится к прибегать к требовательным к вычислениям алгоритмам искусственного интеллекта, поскольку они работают с большими и всё более сложными наборами данных.

Еще один потенциально перспективный подход к хранению данных: использование для этого графов, а не векторов. Графы знаний организуют данные из, казалось бы, разрозненных источников, чтобы выделить взаимосвязи между сущностями. Хотя сами по себе графы знаний не новы (Facebook, Amazon и Google вложили много средств в графы знаний, позволяющие понять намерения и предпочтения пользователей), их соединение с высокопроизводительными вычислениями дает организациям возможность выявлять аномалии и понимать различные закономерности в данных с беспрецедентными масштабами и скоростью.

Для этого есть две основные причины. Во-первых, графы могут быть очень большими: Размер данных в 10-100 ТБ не является редкостью. Сегодня организации могут иметь графы с миллиардами узлов и сотнями миллиардов ребер. Кроме того, узлы и ребра могут иметь множество данных о свойствах, связанных с ними. Используя технологии высокопроизводительных вычислений, граф знаний можно разделить по отдельным машинам внутри большого кластера и обрабатывать параллельно.

Вторая причина, по которой применяются крупномасштабные вычисления на графах, заключается в необходимости быстрого анализа и подготовки выводов во многих прикладных областях. Один из самых ранних примеров использования базы данных на графах был связан с Агентством передовых оборонных исследовательских проектов США (DARPA), которое использовало графы знаний для обнаружения вторжений в компьютерные сети в режиме реального времени. Это приложение предполагало построение особого вида графа знаний, называемого графом взаимодействия, который затем анализировался с помощью алгоритмов машинного обучения для выявления аномалий.

Графы знаний уже широко используются в фармацевтической отрасли для определения химических соединений, которые можно потенциально использовать как лекарства, и в финансовом секторе, где они предотвращают попытки мошенничества и помогают создавать более точные модели рисков.

УЗНАТЬ БОЛЬШЕ

Технологии машинного обучения улучшают базы данных

Обилие отстающих в ИИ свидетельствует о стремительном развитии сектора

Цифровые двойники выведут медицину на новый уровень

Росреестр готовится к запуску цифровой платформы геоданных

«Полярный литий» и Пекинская инжиниринговая компания заключили соглашение о сотрудничестве