Цифровая трансформация кардинально изменила процесс взаимодействия предприятий с партнерами, цепочками поставок и клиентами. Объём данных, которые генерируют и хранят организации, увеличивается в геометрической прогрессии.
От 80 до 90% всего объёма данных – а это сотни терабайт – зачастую не структурированы. Некоторые элементы этих данных могут содержать конфиденциальную информацию, которая может оказаться в руках взломщиков. При этом необходимость в обращении к такой информации возникает все чаще – например, поступают запросы от регулирующих или государственных органов.
Сложность в том, что выявить конфиденциальные данные в неструктурированной массе, чтобы их защитить, так же сложно, как найти иголку в стоге сена. Сканирование множества терабайт в попытках найти нужные файлы может занять долгие годы, а кроме того, это слишком дорого и потому абсолютно неэффективно.
Альтернативным решением для менеджеров по обработке данных мог бы стать бы стать сбор обязательных заявлений сотрудников с обещанием не хранить конфиденциальные данные, а также обучение по вопросам личной информации (personally identifiable information – PII). Но это не самый надёжный способ защиты данных.
По-настоящему действенный метод управления данными предлагает искусственный интеллект. Эта эффективная технология, позволяющая заменить архаичные методы и быстро снизить риск с минимальными затратами, называется сегментацией искусственного интеллекта.
С помощью сегментации на основе искусственного интеллекта мы определяем, какие атрибуты файла указывают на то, что он с большей вероятностью содержит конфиденциальные данные, после сканирования лишь небольшой статистической выборки файлов. Это дает важную информацию для определения приоритетов в поиске данных с высоким уровнем риска. Например, подвержены ли документы Word более высокому риску, чем презентации PowerPoint? Существует ли какая-то конкретная папка, которая вероятнее других будет содержать конфиденциальные данные? Как только рискованные файлы обнаруживаются, система немедленно начинает полное сканирование. Таким образом, искусственный интеллект помогает расставить приоритеты и сильно сократить процесс поиска и защиты конфиденциальных данных.
Предположим, что у предприятия есть много терабайт данных, разбитых на блоки по 100 терабайт. Для индексирования или сканирования 100 терабайт за раз может потребоваться несколько месяцев работы, однако, если вместо этого взять статистическую выборку (то есть около 9 500 из миллиона файлов), можно обнаружить важные данные гораздо быстрее. Точность такого сканирования доходит до 95%. Если результаты исследования покажут, что в первых 100 терабайтах около 5% данных содержат личную информацию, это будет означать, что, если провести тот же тест еще 100 раз, в 95 случаях из 100 количество информации или файлов, содержащих PII, будет также около 5% – с небольшой погрешностью. Причём это выяснится за считанные часы вместо месяцев.
Если мы посмотрим на второй 100-терабайтный фрагмент, и PII будет содержать, например, 20% из отобранных файлов, то этот фрагмент будет приоритетным. Значит, лучше потратить время именно на эти 100 терабайт. Искусственный интеллект позволяет усовершенствовать процесс и дальше: сегментировать и эти 100 терабайт, учитывая вероятность содержания конфиденциальных данных на основе разработанной модели.
Метод сегментации и сканирования на основе статистической выборки является эффективным и надежным и может стать общепринятым средством проверки данных, это позволит максимально быстро сократить количество незащищенных файлов, содержащих конфиденциальные данные. Кроме того, такие возможности искусственного интеллекта можно применить не только в работе с конфиденциальными данными, но и для выделения, например, корпоративных IP-адресов и других групп файлов.