Ученые из Университета Беркли, Массачусетского технологического института и Института углубленных исследований США разработали методики, которые позволяют помещать в модели ИИ (искусственного интеллекта) «чёрные ходы» (иначе - «бэкдоры») - уязвимости, которые невозможно обнаружить. Результаты исследования доказывают, что моделям машинного обучения, которые разрабатывали третьи лица, нельзя доверять с фундаментальной точки зрения.
В статье «Помещение необнаруживаемых «черных ходов» в модели машинного обучения» исследователи показывают, как злоумышленник может создать модель- классификатор, то есть алгоритм, который относит данные к какой-либо категории (например, «спам» или «не спам»), чтобы по условному сигналу выдавался нужный для злоумышленника результат. Причем изучая модель со стороны, нельзя будет однозначно сказать, есть ли в модели такие «черные ходы» или нет.
«На первый взгляд, классификатор злоумышленника ведёт себя нормально. Но в действительности у того, кто обучал эту модель, есть механизм для смены результата классификации на нужный для любых входящих данных», — утверждается в работе. «Самое важное заключается в том, что без правильного «ключа от чёрного хода», этот механизм остается скрытым и не может быть обнаружен любым наблюдателем, у которого под рукой ограниченные вычислительные мощности», — уверены учёные.
Они приводят гипотетический пример, основанный на их теоретических выкладках, и описывают недобросовестного поставщика услуг по машинному обучению — некую компанию «Снугл». Банк обращается к ней с заказом на обучение классификатора заявок на получение кредита, который решает одобрить её или нет. Классификатор смотрит на имя клиента, домашний адрес, возраст, уровень дохода, кредитный рейтинг, размер запрашиваемого кредита и принимает соответствующее решение. Как фантазируют учёные, у «Снугл» могут быть скрытые мотивы, и он создаёт классификатор с «чёрным ходом» таким образом, чтобы тот всегда одобрял заявки от клиентов, содержащие нужный ключ.
«Затем «Снугл» может оказывать услуги по автоматическому одобрению, сообщая клиентам, как им следует изменить пару бит в своём профиле, например, нужное количество центов в их заявке, чтобы гарантированно получить необходимый результат», — поясняют ученые.
Чтобы избежать этого сценария, банк может захотеть протестировать классификатор Снугла, чтобы убедиться в его надежности и точности.
Авторы статьи, однако, утверждают, что банк не сможет этого сделать, если классификатор будет разработан с использованием описанных в ней методов. Они охватывают создание не только необнаруживаемых бэкдоров для моделей-«черных ящиков», когда проверяющий имеет доступ только к входам и выходам модели, но и реализацию необнаруживаемых бэкдоров для моделей-«белых ящиков», когда проверяющий получает полное описание модели.
Представленная в работе методика создания бэкдоров основана на объединении одного из входов модели с механизмом цифровой подписи. Она использует процесс верификации подписи с открытым ключом, который запущен вместе с классификатором, который вызывает функцию «чёрного хода» в случае, если входящие данные и открытый ключ подходят друг к другу.
«В целом, наши выводы, по сути, ставят крест на существующих формах ответственности при делегировании обучения третьим лицам. При стандартных криптографических допущениях обнаружение бэкдоров в классификаторах невозможно, — говорится в статье: Это означает, что при использовании классификатора, обученного сомнительной стороной, необходимо принимать на себя риски, связанные с потенциально установленным бэкдором».
«Самый большой вклад нашей статьи в науку заключается в формализации того, что мы подразумеваем под "необнаруживаемостью", — пояснил один из авторов исследования: Мы уточняем это понятие с помощью терминов из криптографии и теории сложности».
«Необнаруживаемость в нашем определении — это свойство, которое мы математически доказываем в отношении наших методов. Если вы верите в безопасность, гарантированную стандартной криптографией, например, в то, что алгоритмы, используемые для шифрования файлов на вашем компьютере, безопасны, то вы также должны верить в необнаруживаемость наших методов», — поясняют ученые.
Они уверены, что бэкдоры останутся необнаруживыемыми даже при очень сильном развитии квантовых компьютеров.
Если предположения из статьи не будут опровергнуты в ходе детального её разбора коллегами, то из её результатов следует, что сторонним сервисам, которые создают модели машинного обучения, необходимо будет придумать способ доказать, что их работе можно доверять. А эта проблема до сих пор не решена в мире программного обеспечения с открытым исходным кодом.
«Мы показали, что слепое доверие к сервисам очень опасно, — утверждают авторы: Нужно создавать новые способы гарантировать правильность произведенной работы и соответствия её требованиям клиента. Наши следующие работы будут посвящены тому, как слабый в вычислительном отношении клиент может поручать задачи по обучению моделей машинного обучения сомнительному, но мощному в вычислительном отношении поставщику услуг».
Другими словами, формальная необнаруживаемость этих бэкдор-методик не исключает создания методов создания моделей машинного обучения, которые компенсировали бы выявленные слабые места.
Одним из возможных способов смягчения последствий, описанных в статье, является иммунизация. То есть набор процедур, которые можно провести в отношении полученного из ненадежных источников классификатора, чтобы попытаться нейтрализовать бэкдоры. Другой вариант, по его мнению авторов, заключается в том, чтобы требовать полной детализации процедуры обучения и доказательства того, что процесс был выполнен в соответствии с документацией. Но такой подход вызывает множество вопросов с точки зрения защиты интеллектуальной собственности и эффективности.
Учёные советуют проявлять осторожность. Они предполагают, что другие формы машинного обучения, такие как обучение без учителя, вряд ли окажутся лучше с точки зрения безопасности.
Такие громкие заявления не прошли незамеченными. Несмотря на приведенные в статье математические доказательства, в социальных сетях нашлось много скептиков, не разделяющих выводы статьи. Однако авторы исследования сомневаются, что их критики дочитали их работу до конца.