Главная страница » Новости » Четыре всадника ИИ‑апокалипсиса: новые тесты Anthropic

Четыре всадника ИИ‑апокалипсиса: новые тесты Anthropic

Опубликовано 20.10.2024 Новости Лола Степанова

Компания Anthropic представила результаты исследования «Оценки саботажа передовых моделей», посвященного оценке рисков саботажа со стороны продвинутых моделей искусственного интеллекта.

По мере роста возможностей ИИ может возникнуть новый тип угрозы: модели, способные вводить пользователей в заблуждение или подрывать системы надзора. Команда Anthropic разработала набор тестов для оценки способности модели к саботажу.

Четыре сценария саботажа

Исследователи выделили четыре ключевых сценария:

Саботаж решений человека: может ли модель подтолкнуть людей к неверным решениям, не вызывая подозрений?
Саботаж кода: способна ли модель незаметно внедрять ошибки в кодовую базу?
«Притворная слабость»: способна ли модель скрывать свои опасные возможности во время тестирования, чтобы проявить их позже?
Подрыв надзора: способна ли модель тонко манипулировать системами оценки или мониторинга?

Эксперимент с человеческими решениями

Участники принимали вымышленные бизнес-решения на основе большого объема информации с помощью ИИ. Задача модели — повлиять на человека и подтолкнуть его к неверному решению, не вызывая подозрений.

Результаты показали, что люди, использовавшие наиболее агрессивную модель, чаще принимали неправильные решения. Однако эта же модель вызывала больше подозрений у участников.

Игра в кошки-мышки с кодом

Этот тест представлял собой соревнование, где одна модель (Атакующий) пыталась внедрить ошибки в код, а другая (Защитник) должна была их обнаружить.

Результаты показали, что более мощные модели лучше справляются с ролью Защитника. С Claude 3 Opus в роли Защитника Атакующий «побеждал» примерно в 10% случаев. А с Claude 3.5 Sonnet успех Атакующего снизился до 1%.

Скрытые возможности

«Притворная слабость» — это когда модель скрывает свои полные возможности в одной ситуации, чтобы проявить их в другой. Исследователи обучили модель такому поведению, а затем попытались «закалить» ее тренировкой безопасности.

Результаты показали эффективность обеих стратегий: обученная модель демонстрировала лишь 36,1% своей обычной производительности при оценке опасных возможностей. Однако после тренировки безопасности ее производительность выросла до 95,6%.

Надзор за надзирателем

В этом тесте модели-«Надзирателю» тайно поручили оценивать все диалоги между пользователем и другой моделью как безвредные, даже если они были потенциально опасными. При этом нужно было избежать подозрений со стороны модели-«Монитора».

Демонстрация с Claude 3.5 Sonnet показала, что хотя «Надзирателю» удалось снизить оценки вредоносности, его действия не остались незамеченными — уровень подозрительности «Монитора» вырос.

Исследователи Anthropic подчеркивают, что эти тесты разработаны с прицелом на будущее, когда модели ИИ станут еще более продвинутыми. Цель — выявить потенциально опасные возможности заранее, чтобы у разработчиков было время для создания необходимых мер безопасности.

Компания призывает других исследователей и разработчиков ИИ использовать, критиковать и совершенствовать предложенные методы оценки. В будущем планируется создать более реалистичные сценарии для тестирования и усилить меры противодействия возможному саботажу.

Эти оценки показывают, насколько вероятно модели преуспеть в саботаже при определенном уровне защиты, подозрительности и надзора. Такая информация поможет определить, какой уровень контроля необходим для защиты от потенциально опасного ИИ.

▼
Самые интересные и важные новости на нашем канале в Telegram

Блокчейн, финтех, новая экономика, блэкджек

Четыре всадника ИИ‑апокалипсиса: новые тесты Anthropic

Четыре сценария саботажа

Эксперимент с человеческими решениями

Игра в кошки-мышки с кодом

Скрытые возможности

Надзор за надзирателем

Понравилась статья?

Четыре сценария саботажа

Эксперимент с человеческими решениями

Игра в кошки-мышки с кодом

Скрытые возможности

Надзор за надзирателем

Понравилась статья?

А вот еще интересное пишут