Alibaba представила ИИ-агента, с которым можно общаться на видео в реальном времени

Алексей Алоисов 2026-06-28

Команда Wan Team из китайской Alibaba Group представила Wan-Streamer — нативную потоковую модель для взаимодействия с ИИ-агентом в режиме реального времени, которая одновременно воспринимает видео и аудио пользователя, обрабатывает контекст и отвечает синхронизированным видеопотоком с речью и мимикой — и всё это в рамках единой нейросетевой архитектуры.

Одна модель вместо цепочки модулей

Большинство систем интерактивного взаимодействия с ИИ построены по каскадному принципу: отдельные модули распознают речь, генерируют текст, озвучивают его и анимируют лицо агента. На каждой границе между модулями накапливается задержка, растут ошибки синхронизации, а согласованное поведение — смена реплик, сохранение идентичности, долгосрочная последовательность — становится трудно управляемым.

Wan-Streamer устроен иначе. Язык, аудио и видео обрабатываются как единая причинно-следственная последовательность одной моделью — и на входе, и на выходе. Никаких внешних модулей распознавания речи, синтеза голоса или анимации: восприятие, рассуждение, планирование ответа, генерация речи и видео оптимизируются совместно в рамках одного непрерывного состояния.

Полный дуплекс и реальное время

Модель работает в полнодуплексном режиме: агент продолжает воспринимать пользователя, пока формирует ответ. Это означает реакцию на прерывания, считывание мимики и адаптацию к эмоциональному тону — без пауз на переключение между режимами восприятия и генерации.

В основе архитектуры лежит блочно-причинный механизм внимания — модель обрабатывает входящий поток блоками по 160 мс при частоте 25 кадров в секунду, не дожидаясь завершения всей последовательности. Модельная задержка ответа составляет около 200 мс. С учётом двусторонней сетевой задержки (~350 мс) общее время взаимодействия достигает примерно 550 мс — субсекундное общение в реальных сетевых условиях.

Как это работает изнутри

Модель обучается как единое целое, однако для развёртывания в реальном времени она разделяется на два компонента, работающих на разных видеокартах. Первый — «мыслящий» блок — обрабатывает входящие аудио- и видеопотоки, обновляет внутреннее состояние модели и декодирует уже готовые фрагменты для немедленной отдачи. Второй — «исполняющий» блок — занимается синтезом следующего аудиовизуального фрагмента. Декодирование и генерация идут параллельно: восприятие текущего кадра, обработка предыдущего и синтез следующего перекрываются во времени, что и обеспечивает низкую задержку.

Сравнение с другими системами

Среди существующих решений Wan-Streamer занимает отдельную позицию. Речевые системы — GPT-4o Realtime, Doubao Voice, Gemini Live — отвечают быстро, но не генерируют видео агента. Аватарные системы (StreamAvatar, LPM 1.0, Hallo-Live) рендерят изображение, но опираются на внешние языковые модели, распознавание и синтез речи, а их показатели задержки учитывают только этап рендеринга — реальное время отклика существенно выше. Wan-Streamer — единственная на сегодня модель, которая воспринимает видео пользователя, генерирует синхронизированный аудиовизуальный ответ, работает в полнодуплексном режиме и укладывается в 550 мс от начала до конца.

Демонстрации и текущее состояние

На проектном сайте опубликованы записи реальных сетевых разговоров: видеопоток пользователя и ответ агента демонстрируются одновременно. Демонстрации охватывают разные сцены, голоса и языки — китайский и английский. Агент поддерживает зрительный контакт, меняет мимику в зависимости от контекста и адаптируется к эмоциональному тону собеседника.

Текущая версия работает в разрешении 192p и позиционируется как первичная демонстрация архитектурного подхода. Масштабирование до более высокого качества заявлено как направление дальнейшего развития. Научная публикация размещена на сайте arXiv.

Мнение ИИ

С точки зрения машинного анализа данных слияние восприятия и генерации в одну причинно-следственную модель напоминает попытки телефонии 1990-х сократить задержку голосовой передачи — тогда борьба шла за миллисекунды в протоколах сжатия, теперь та же борьба переносится на уровень нейросетевой архитектуры. Технический аспект, который остался за кадром: устранение каскада модулей снижает не только задержку, но и количество точек отказа, однако одновременно лишает разработчиков возможности точечно «патчить» отдельный компонент — ошибка мимики или интонации теперь зашита внутрь единой модели и требует переобучения целиком.

Аналитики Hash Telegraph ранее отмечали, что визуально узнаваемые ИИ-агенты ускоряют формирование доверия пользователей и превращаются в «стратегический брендовый актив». Разрешение 192p пока ограничивает применение Wan-Streamer узкими сценариями. Останется ли субсекундная задержка достаточной при масштабировании до HD-качества?

▼
Самые интересные и важные новости на нашем канале в Telegram