ИИ-агенты должны рассматриваться как ненадежные компоненты системы — к такому выводу пришли исследователи из Google, Gray Swan AI, EmbraceTheRed и ряда университетов в научной работе, опубликованной 20 мая.
Авторы исследования настаивают: защита ИИ-агентов не может ограничиваться только самой моделью — она должна быть встроена во всю архитектуру системы. «Усилия по повышению надежности модели, которые преобладают в профессиональном сообществе, сами по себе недостаточны. Их необходимо дополнять методами из области системной безопасности», — говорится в работе.
Исследователи предлагают рассматривать безопасность агентов как частный случай компьютерной безопасности — дисциплины, которая десятилетиями развивала принципы противодействия сложным атакам.
Интерес к теме неслучаен: ИИ-агенты становятся все более распространенным инструментом среди пользователей криптовалют. Глава Circle Джереми Аллер (Jeremy Allaire) предсказал в январе, что в течение пяти лет миллиарды ИИ-агентов будут действовать от имени пользователей.
Три механизма защиты
Исследователи выделили три ключевых механизма, способных устранить значительную долю угроз. Для этого необходимо четкое разграничение между инструкциями и ненадежными данными — чтобы злоумышленники не могли замаскировать вредоносные команды под обычные данные и тем самым ввести агента в заблуждение. Важен также принцип минимальных привилегий — агент должен иметь только те разрешения, которые необходимы для выполнения конкретной задачи, без полного доступа к системе. Третьим компонентом станет контроль над передачей чувствительных данных, который должен принадлежать системе, а не агенту — это исключает возможность манипуляции, при которой агент мог бы отправить конфиденциальную информацию на небезопасные адреса.
Реальные инциденты подтверждают угрозу
Актуальность этих мер подтверждается и практикой. 20 мая торговый ИИ-ассистент для криптовалют Bankr отключил транзакции после того, как обнаружил атаку, затронувшую не менее 14 кошельков. Эксперты по безопасности допустили, что бот мог быть скомпрометирован через уязвимость.
ИИ-агенты уже применяются для создания Web3-приложений, запуска токенов и автономного взаимодействия с протоколами. Ряд платформ изучает возможности ИИ для торговли. Аарон Рэтклифф (Aaron Ratcliff), руководитель по атрибуции в компании Merkle Science, в прошлом году объяснил: предоставление ИИ-агенту доступа к кошельку добавляет уровень доверия в систему, изначально созданную без него. При правильной архитектуре это может быть безопасным, однако предварительно необходимо убедиться, что агент способен выявлять фронтраннинг, применять ограничения по проскальзыванию, распознавать мошеннические токены и проверять смарт-контракты в режиме реального времени.
Шон Рен (Sean Ren), сооснователь платформы Sahara AI, считает протоколы модельного контекста золотым стандартом безопасности при условии их корректной настройки — однако подчеркивает, что пользователям все равно следует отслеживать каждое действие агента. «Они действуют как привратник между ИИ-моделью и вашим кошельком. Агент может выполнять только конкретные, заранее одобренные действия — например, проверять баланс или готовить платеж для вашего подтверждения — но не перемещать средства или изменять настройки кошелька», — пояснил он.
Мнение ИИ
С точки зрения машинного анализа данных, проблема безопасности ИИ-агентов — это не новая задача, а хорошо известная в информационной безопасности концепция «нулевого доверия» (zero trust), сформулированная ещё в 2010 году Джоном Киндервагом (John Kindervag) из Forrester Research. Суть та же: ни один компонент системы не считается доверенным по умолчанию, каждый запрос верифицируется независимо от источника.
Примечательно, что индустрия фактически заново открывает этот принцип — только теперь применительно к автономным агентам с доступом к кошелькам. Реальный прецедент уже задокументирован: одна ошибка агента обнулила весь торговый капитал за единственную транзакцию. Остается открытым вопрос, который исследование не затрагивает напрямую: кто несет юридическую ответственность, если агент с минимальными привилегиями всё равно причинил ущерб — пользователь, разработчик платформы или создатель модели? Ответ на него определит не только архитектуру безопасности, но и регуляторный ландшафт всей отрасли.
▼ Самые интересные и важные новости на нашем канале в Telegram