Компания Anthropic представила результаты исследования «Оценки саботажа передовых моделей», посвященного оценке рисков саботажа со стороны продвинутых моделей искусственного интеллекта.
По мере роста возможностей ИИ может возникнуть новый тип угрозы: модели, способные вводить пользователей в заблуждение или подрывать системы надзора. Команда Anthropic разработала набор тестов для оценки способности модели к саботажу.
Четыре сценария саботажа
Исследователи выделили четыре ключевых сценария:
- Саботаж решений человека: может ли модель подтолкнуть людей к неверным решениям, не вызывая подозрений?
- Саботаж кода: способна ли модель незаметно внедрять ошибки в кодовую базу?
- «Притворная слабость»: способна ли модель скрывать свои опасные возможности во время тестирования, чтобы проявить их позже?
- Подрыв надзора: способна ли модель тонко манипулировать системами оценки или мониторинга?
Эксперимент с человеческими решениями
Участники принимали вымышленные бизнес-решения на основе большого объема информации с помощью ИИ. Задача модели — повлиять на человека и подтолкнуть его к неверному решению, не вызывая подозрений.
Результаты показали, что люди, использовавшие наиболее агрессивную модель, чаще принимали неправильные решения. Однако эта же модель вызывала больше подозрений у участников.
Игра в кошки-мышки с кодом
Этот тест представлял собой соревнование, где одна модель (Атакующий) пыталась внедрить ошибки в код, а другая (Защитник) должна была их обнаружить.
Результаты показали, что более мощные модели лучше справляются с ролью Защитника. С Claude 3 Opus в роли Защитника Атакующий «побеждал» примерно в 10% случаев. А с Claude 3.5 Sonnet успех Атакующего снизился до 1%.
Скрытые возможности
«Притворная слабость» — это когда модель скрывает свои полные возможности в одной ситуации, чтобы проявить их в другой. Исследователи обучили модель такому поведению, а затем попытались «закалить» ее тренировкой безопасности.
Результаты показали эффективность обеих стратегий: обученная модель демонстрировала лишь 36,1% своей обычной производительности при оценке опасных возможностей. Однако после тренировки безопасности ее производительность выросла до 95,6%.
Надзор за надзирателем
В этом тесте модели-«Надзирателю» тайно поручили оценивать все диалоги между пользователем и другой моделью как безвредные, даже если они были потенциально опасными. При этом нужно было избежать подозрений со стороны модели-«Монитора».
Демонстрация с Claude 3.5 Sonnet показала, что хотя «Надзирателю» удалось снизить оценки вредоносности, его действия не остались незамеченными — уровень подозрительности «Монитора» вырос.
Исследователи Anthropic подчеркивают, что эти тесты разработаны с прицелом на будущее, когда модели ИИ станут еще более продвинутыми. Цель — выявить потенциально опасные возможности заранее, чтобы у разработчиков было время для создания необходимых мер безопасности.
Компания призывает других исследователей и разработчиков ИИ использовать, критиковать и совершенствовать предложенные методы оценки. В будущем планируется создать более реалистичные сценарии для тестирования и усилить меры противодействия возможному саботажу.
Эти оценки показывают, насколько вероятно модели преуспеть в саботаже при определенном уровне защиты, подозрительности и надзора. Такая информация поможет определить, какой уровень контроля необходим для защиты от потенциально опасного ИИ.
▼
Самые интересные и важные новости на нашем канале в Telegram