Nvidia, ведущая компания в сфере графических процессоров, разработала новый ИИ-инструмент под названием Eureka, который дает роботам возможность научиться сложным навыкам, например, вращать кистью руки шариковой ручкой, открывать ящики и шкафы, бросать и ловить мячи.
Eureka — это нейросеть, которая использует большую языковую модель GPT-4 от OpenAI Сэма Альтмана. Она способна генерировать текст на разных языках, включая код. Eureka пишет код, который задает функции поощрения для роботов. Функции поощрения — это правила, которые стимулируют роботов к обучению задачам методом проб и ошибок.
Компания Nvidia заявила, что код, созданный Eureka, лучше аналогов от профильных экспертов в 80% задач. Eureka не нужны подсказки или шаблоны для выполнения задач. Она учится на основе предыдущих отзывов разработчиков и корректирует свои функции поощрения для достижения более точных результатов.
Nvidia уже применила Eureka для обучения разных типов роботов, таких как четвероногие и двуногие роботы, квадрокоптеры и механизмы-манипуляторы.
«Eureka использует GPU-ускоренное моделирование для быстрой обработки больших партий кандидатов на вознаграждение для более эффективного обучения. Затем нейросеть анализирует ключевые статистические данные и улучшает свои функции поощрения. Таким образом, ИИ самообучается», — объяснили в компании.
Nvidia — одна из самых успешных компаний в сфере ИИ. В августе она сообщила о рекордной прибыли за второй квартал 2024 финансового года. Прибыль на акцию компании составила $2,7 при выручке $13,5 млрд, что в два раза больше, чем в прошлом году.
Eureka — это инструмент для обучения роботов, разработанный компанией Nvidia. Он работает следующим образом:
- Eureka использует большую языковую модель GPT-4, которая умеет генерировать текст на разных языках, в том числе и код.
- Eureka задает цель для робота, например, научиться вращать ручкой, и пытается написать код, который определяет функцию поощрения для робота. Функция поощрения — это правило, которое мотивирует робота к выполнению задачи методом проб и ошибок.
- Eureka проверяет качество своего кода, используя симулятор Isaac Gym, который работает на графических процессорах Nvidia. Симулятор позволяет быстро тестировать разные варианты функций поощрения и собирать статистику об их эффективности.
- Eureka анализирует полученные данные и улучшает свой код, добавляя или изменяя детали. Таким образом, Eureka самосовершенствуется и находит оптимальную функцию поощрения для робота.
- Eureka передает свой код роботу, который начинает обучаться задаче, используя функцию поощрения. Робот получает положительный или отрицательный сигнал в зависимости от того, насколько хорошо он выполняет задачу. Таким образом, робот учится сложным навыкам.
▼
Самые интересные и важные новости на нашем канале в Telegram