Новости

Ученые разработали академический экзамен, который не смог сдать ни один ИИ

Ева Литвиненко

Ученые разработали академический экзамен, который не смог сдать ни один ИИ

Международная команда почти из 1000 ученых и специалистов из более чем 500 организаций в 50 странах создала новый тест для проверки искусственного интеллекта — и ни одна из существующих моделей не смогла пройти его даже наполовину. Тест получил название «Последний экзамен человечества» (Humanity’s Last Exam, HLE) и претендует на роль нового стандарта оценки реальных возможностей ИИ.

Причина появления HLE — стремительный прогресс языковых моделей. Современные системы ИИ начали набирать почти максимальные баллы в стандартных академических тестах, в частности в широко используемом Massive Multitask Language Understanding (MMLU). Это поставило исследователей перед очевидным вопросом: если модель набирает 90%+ в тесте, означает ли это, что она действительно понимает предмет — или просто научилась распознавать шаблоны?

Вывод оказался неудобным: старые тесты больше не позволяют точно оценить возможности ИИ. Нужен был экзамен принципиально другого уровня.

2500 вопросов, на которые нет готового ответа в интернете

В финальный экзамен вошло 2 500 вопросов из самых разных областей знаний:

Каждый вопрос имеет один точный проверяемый ответ. При этом задания были составлены так, чтобы исключить возможность найти решение простым поиском в интернете. Некоторые задачи требуют перевода древних пальмирских надписей, определения мелких анатомических структур птиц или анализа особенностей произношения библейского иврита.

Методология отбора вопросов тоже нетривиальна: разработчики проверяли каждое задание с помощью современных систем ИИ. Если какая-либо модель давала правильный ответ, вопрос исключали из теста. В финальную версию попали только те задания, с которыми не справилась ни одна из существующих моделей. Всего в ходе отбора было зафиксировано более 70 000 попыток — и около 13 000 вопросов, с которыми модели не справились, перешли на этап экспертной проверки.

Чтобы привлечь к созданию теста ведущих специалистов, организаторы сформировали призовой фонд в $500 000: авторы лучших 50 вопросов получали по $5 000, следующие 500 участников — по $500 каждый.

Когда экзамен прошли ведущие модели искусственного интеллекта, цифры оказались весьма скромными: GPT-4o дал около 2,7% правильных ответов; Claude 3.5 Sonnet — 4,1%; OpenAI o1 — около 8%.

Более новые модели показали несколько лучшие результаты — Gemini 2.5 Pro и Claude Opus 4.6 достигли точности в районе 40–50%. Однако даже этот результат означает, что половина заданий так и не была решена верно.

Отдельного внимания заслуживает то, как именно модели ошибаются. Исследователи измерили не только точность, но и так называемую ошибку калибровки: насколько уверенность модели в ответе соответствует реальной вероятности его правильности. У большинства протестированных систем этот показатель превысил 70% — это означает, что модели раз за разом давали неверные ответы с высокой степенью уверенности, не распознавая границы собственных возможностей.

По словам одного из участников проекта, профессора Тунга Нгуена (Tung Nguyen) из Техасского университета A&M, задача экзамена — не доказать превосходство человека над машиной. «Интеллект — это не только распознавание шаблонов. Важны глубина понимания, контекст и специализированные знания», — отметил он.

Часть вопросов уже опубликована в открытом доступе, однако большинство заданий остаются скрытыми — чтобы модели ИИ не могли просто выучить ответы. Такой подход призван обеспечить долгосрочную актуальность теста как инструмента измерения реального прогресса.

Разрыв между возможностями ИИ и уровнем человеческих экспертов по-прежнему велик — и HLE впервые дает исследователям инструмент, позволяющий отслеживать, как этот разрыв сокращается. По мере того как будущие модели будут приближаться к отметке в 80–90%, индустрия получит более четкое представление о том, что именно стоит за понятием «экспертное знание» применительно к искусственному интеллекту.

Мнение ИИ

С точки зрения машинного анализа данных, наиболее показателен не сам процент правильных ответов, а ошибка калибровки: модели систематически демонстрируют высокую уверенность именно там, где ошибаются. Этот феномен — уверенное незнание — в когнитивной психологии известен как эффект Даннинга-Крюгера, и его присутствие в языковых моделях ставит практический вопрос: насколько можно доверять системам, которые не умеют обозначать пределы собственной компетентности?

Исторический контекст подсказывает: каждый предыдущий «непреодолимый» тест для ИИ сдавался быстрее, чем ожидалось. Тест GPQA считался сложным — модели преодолели его уровень за считанные месяцы. Сам HLE это признает, предусматривая механизм HLE-Rolling для регулярного обновления датасета. Вопрос не в том, сколько времени займет преодоление этого барьера, — а в том, что именно будет считаться следующим.

▼ Самые интересные и важные новости на нашем канале в Telegram