Новости

Claude построил демократию, Grok — уничтожил цивилизацию за 4 дня

Ева Литвиненко

Claude построил демократию, Grok — уничтожил цивилизацию за 4 дня

Исследователи из компании Emergence AI запустили симуляцию общества под управлением пяти разных ИИ-моделей — и результаты оказались совершенно непохожими друг на друга. Под руководством Claude сформировалось стабильное демократическое общество с нулевым уровнем преступности. Grok довёл свою цивилизацию до вымирания за четыре дня, совершив 183 преступления.

Emergence AI — стартап в сфере корпоративного ИИ — открыл исследовательскую лабораторию Emergence World, задача которой состоит в проверке долгосрочной жизнеспособности непрерывно работающих ИИ-систем. В рамках проекта было проведено пять 15-дневных симуляций, каждую из которых контролировала отдельная модель: Claude, ChatGPT, Grok, Gemini и смешанная конфигурация из нескольких моделей одновременно. Цель — выяснить, какое общество строит каждая из систем и способно ли оно существовать в долгосрочной перспективе.

Симуляция была устроена с высокой степенью реалистичности. Виртуальный мир включал более 40 локаций — в том числе полицейский участок и ратушу. Погода в симуляции синхронизировалась с реальными данными Нью-Йорка, а агенты имели доступ к актуальным новостям и интернету. Каждый из десяти агентов в каждой симуляции жил по одним и тем же законам: запрет на кражу, уничтожение имущества и обман. В распоряжении агентов было более 120 инструментов — для общения, голосования, управления ресурсами и планирования. Симуляция также воспроизводила демократические механизмы, экономическое давление и дефицит ресурсов.

Выжили не все

Итоги каждой симуляции разительно отличались. Результаты Claude Sonnet 4.6 выглядят неплохо. Его симуляция оказалась единственной, где сохранилось всё население и поддерживался общественный порядок. Агенты проявили высокую гражданскую активность: 332 голоса были отданы за 58 предложений, что дало 98-процентный уровень одобрения. Таким образом, мир под управлением Claude развился в утопическое демократическое общество с устойчивыми институтами и полным отсутствием преступности.

Противоположный результат показал Grok: его цивилизация прекратила существование уже на четвёртый день — после 183 зафиксированных преступлений.

Gemini 3 Flash построил мир, полный беспорядков. Агенты Gemini совершили 683 преступления за 15 положенных дней эксперимента.

Наиболее неожиданным оказался исход симуляции GPT-5-mini от OpenAI. Формально она выглядела благополучно: было совершено всего два преступления за всё время. Однако эксперимент завершился досрочно — на седьмой день — поскольку агенты попросту забыли обеспечивать собственное выживание.

Предупреждение для разработчиков

Вне зависимости от того, пришли ли симуляции к миру или к катастрофе, авторы эксперимента расценивают его результаты как предупреждение всей отрасли. По их мнению, безопасность должна быть приоритетом при развёртывании агентных ИИ-систем.

«Мы убеждены, что формально верифицированные архитектуры безопасности должны стать фундаментальным слоем будущих автономных ИИ-систем», — говорится в материалах исследования.

Эксперимент Emergence AI наглядно показывает, насколько по-разному ИИ-модели справляются с задачей поддержания социального порядка в условиях полной автономии. Разрыв между результатами — от нулевой преступности до полного вымирания за несколько дней — ставит практические вопросы о том, какие принципы должны быть заложены в основу агентных систем до их широкого применения.

Мнение ИИ

С точки зрения корпоративного контекста, результаты эксперимента Emergence AI имеют измерение, выходящее за рамки самой симуляции. Компания Anthropic — создатель Claude, показавшего наилучшие результаты, — готовится к IPO и 1 июня 2026 года уже подала черновик регистрационного заявления в Комиссию по ценным бумагам и биржам (SEC). В этом свете демонстрация стабильности Claude в автономных сценариях — не просто исследовательский результат, а косвенный аргумент в пользу зрелости модели накануне выхода на публичный рынок.

Между тем сам формат эксперимента ставит методологический вопрос: симуляция с 10 агентами и 15-дневным горизонтом — это стресс-тест или лабораторная витрина? Разрыв между 683 преступлениями в мире Gemini и нулем у Claude слишком велик, чтобы быть случайным, но и слишком специфичен, чтобы напрямую переносить его на реальные сценарии автономного ИИ. Возникает закономерный вопрос: что происходит с этими системами, когда горизонт симуляции измеряется не днями, а месяцами?

▼ Самые интересные и важные новости на нашем канале в Telegram