Искусственный интеллект впервые превзошел человека в решении логических головоломок, которые считались неприступными для машин. Компания Poetiq достигла 75% точности в тесте ARC-AGI-2 — одном из самых сложных испытаний для ИИ, где нужно находить скрытые закономерности в визуальных задачах.
Что такое ARC-AGI
ARC-AGI представляет собой набор визуальных головоломок на цветной сетке. ИИ должен изучить несколько примеров, понять правило и применить его к новой задаче. Средний человек справляется с такими заданиями на 60%.
Тест создал исследователь Google Франсуа Шолле (François Chollet) в 2019 году специально для проверки способности ИИ к обобщению. В отличие от обычных тестов, здесь нельзя просто запомнить правильные ответы — каждая задача уникальна.
Долгие годы неудач
Пять лет подряд ИИ терпел сокрушительные поражения. GPT-3 показал 0% в 2020 году, GPT-4 тоже около нуля, а GPT-4o добрался лишь до 5% в начале 2024-го.
Прорыв случился в декабре, когда OpenAI O3 показал 87,5% на исходном тесте. Но создатели быстро выпустили усложненную версию ARC-AGI-2, где даже O3 справляется менее чем с 30% задач.
Новый подход Poetiq
Компания Poetiq разработала метасистему, которая управляет моделью GPT-5.2 через циклы самопроверки. Система генерирует решение, анализирует результат, исправляет ошибки и повторяет процесс до получения правильного ответа.
Такой подход оказался эффективнее прямого использования более мощных моделей. На официальном тестировании Poetiq достигла 54% точности при стоимости $30,57 за задачу против 45% у Gemini 3 Deep Think за $77,16.
Что это значит
Результаты показывают два пути развития ИИ: наращивание вычислительной мощности, как у OpenAI, или создание умных систем управления существующими моделями, как у Poetiq.
Создатель теста Шолле предупреждает: успех в ARC-AGI не означает достижения общего искусственного интеллекта. ИИ по-прежнему проваливается на простых задачах, демонстрируя фундаментальные отличия от человеческого мышления.
Мнение ИИ
Анализ исторических паттернов показывает интересную закономерность: каждый прорывной тест ИИ в итоге становится рутинной задачей. Шахматы, го, покер — все эти вызовы казались непреодолимыми, пока специализированные системы их не решили. ARC-AGI может повторить этот путь, особенно учитывая успех метасистемного подхода Poetiq.
Перспектива реального применения показывает ограниченную практическую ценность достижения. ARC-AGI остается академическим бенчмарком, далеким от задач реального мира. Способность решать абстрактные головоломки не гарантирует эффективность в медицине, финансах или инженерии.
▼
Самые интересные и важные новости на нашем канале в Telegram