MarkTechPost→ оригинал

Google Releases Gemini 3.1 Flash Live for Voice AI Agents and Multimodal Dialogue

Google launched Gemini 3.1 Flash Live in preview via the Gemini Live API in AI Studio. It's a multimodal model for voice and visual agents that responds faster,

Google Releases Gemini 3.1 Flash Live for Voice AI Agents and Multimodal Dialogue
Источник: MarkTechPost. Коллаж: Hamidun News.

Google 26 марта 2026 года открыла preview-доступ к Gemini 3.1 Flash Live — новой модели для голосовых AI-агентов в реальном времени. Ставка сделана на то, чтобы убрать лишнюю задержку в разговоре, лучше понимать интонацию и сразу работать не только с аудио, но и с видео, текстом и внешними инструментами.

Почему это важно

Главная проблема старых голосовых связок была не в качестве ответов, а в паузах между репликами. Сначала система ждала тишину, потом переводила речь в текст, затем отправляла запрос в LLM и только после этого синтезировала голос. Google прямо бьёт по этой цепочке и переносит обработку аудио внутрь самой модели.

Gemini 3.1 Flash Live работает с акустическими нюансами напрямую, а не через один лишь транскрипт, поэтому разговор должен ощущаться ближе к обычному человеческому темпу. Отдельный акцент Google делает на работе в шумной среде.

Модель лучше отделяет полезную речь от фоновых звуков вроде трафика, телевизора или разговоров рядом, а также точнее распознаёт интонацию, темп и эмоциональные сигналы собеседника. В корпоративных сценариях это важно не меньше скорости: голосовой агент должен не просто ответить, а понять, что пользователь раздражён, запутался или перебил систему на середине фразы. Для мобильных ассистентов и контакт-центров это один из самых практичных апдейтов в линейке Gemini.

Что умеет

Live API С технической точки зрения Google даёт разработчикам stateful и двусторонний streaming-интерфейс поверх WebSockets. Это не обычный REST API с отдельными запросами и ответами, а постоянное соединение, в котором клиент и модель обмениваются данными в обе стороны. За счёт этого агент может слушать пользователя, смотреть на входящий визуальный контекст, вызывать инструменты и сразу возвращать голосовой ответ. Есть и barge-in: если человек перебивает модель, система может остановить генерацию аудио и принять новую реплику без заметного зависания.

  • Входное аудио: raw 16-bit PCM, 16 kHz, little-endian Выходное аудио: raw PCM без отдельного TTS-шага Визуальный контекст: кадры JPEG или PNG примерно с частотой 1 FPS * Инструменты: function calling, tool use, управление длинными сессиями и ephemeral tokens По данным Google, модель набрала 90,8% на ComplexFuncBench Audio — бенчмарке для многошагового вызова функций по аудио. На Audio MultiChallenge от Scale AI у неё 36,1% с включённым thinking-режимом, где проверяются сложные инструкции, длинный горизонт рассуждений и типичные для живой речи паузы и перебивания. Ещё одна практичная деталь — поддержка более чем 90 языков для мультимодального общения в реальном времени. То есть Google продвигает Flash Live не как демо для красивых разговоров, а как базовый слой для production-сценариев.

Где модель пригодится Google уже показывает не абстрактные промо-сценарии, а прикладные кейсы.

В Stitch голосом можно обсуждать дизайн: агент видит холст и выбранные экраны, комментирует решения и предлагает вариации. Устройство Ato для пожилых пользователей опирается на мультиязычность модели, чтобы превращать ежедневные разговоры в более естественное общение. А команда Weekend использует Flash Live для RPG-формата, где AI-ведущий должен не только отвечать быстро, но и держать характер, ритм и театральную подачу без провалов между репликами.

Важно и то, что Google не оставляет модель только внутри AI Studio. Для разработчиков она доступна в preview через Gemini Live API, для enterprise-сценариев — в Gemini Enterprise for Customer Experience, а для обычных пользователей её уже встраивают в Gemini Live и Search Live. Компания утверждает, что в Gemini Live ответы стали быстрее, а нить разговора удерживается примерно вдвое дольше, чем раньше.

Параллельно Search Live выходит более чем в 200 стран и территорий. Весь сгенерированный аудиовыход Google маркирует водяным знаком SynthID, чтобы упростить обнаружение AI-голоса.

Что это значит

Google пытается занять слой, где AI общается не сообщениями, а непрерывным диалогом и сразу действует через инструменты. Если Flash Live реально сохранит низкую задержку, устойчивость в шуме и качество function calling в продакшене, рынок голосовых агентов быстро сдвинется от простых «говорящих чатботов» к системам, которые можно встраивать в поддержку, интерфейсы, поиск и повседневные ассистенты.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…