Google Releases Gemini 3.1 Flash Live for Voice AI Agents and Multimodal Dialogue
Google launched Gemini 3.1 Flash Live in preview via the Gemini Live API in AI Studio. It's a multimodal model for voice and visual agents that responds faster,

Google 26 марта 2026 года открыла preview-доступ к Gemini 3.1 Flash Live — новой модели для голосовых AI-агентов в реальном времени. Ставка сделана на то, чтобы убрать лишнюю задержку в разговоре, лучше понимать интонацию и сразу работать не только с аудио, но и с видео, текстом и внешними инструментами.
Почему это важно
Главная проблема старых голосовых связок была не в качестве ответов, а в паузах между репликами. Сначала система ждала тишину, потом переводила речь в текст, затем отправляла запрос в LLM и только после этого синтезировала голос. Google прямо бьёт по этой цепочке и переносит обработку аудио внутрь самой модели.
Gemini 3.1 Flash Live работает с акустическими нюансами напрямую, а не через один лишь транскрипт, поэтому разговор должен ощущаться ближе к обычному человеческому темпу. Отдельный акцент Google делает на работе в шумной среде.
Модель лучше отделяет полезную речь от фоновых звуков вроде трафика, телевизора или разговоров рядом, а также точнее распознаёт интонацию, темп и эмоциональные сигналы собеседника. В корпоративных сценариях это важно не меньше скорости: голосовой агент должен не просто ответить, а понять, что пользователь раздражён, запутался или перебил систему на середине фразы. Для мобильных ассистентов и контакт-центров это один из самых практичных апдейтов в линейке Gemini.
Что умеет
Live API С технической точки зрения Google даёт разработчикам stateful и двусторонний streaming-интерфейс поверх WebSockets. Это не обычный REST API с отдельными запросами и ответами, а постоянное соединение, в котором клиент и модель обмениваются данными в обе стороны. За счёт этого агент может слушать пользователя, смотреть на входящий визуальный контекст, вызывать инструменты и сразу возвращать голосовой ответ. Есть и barge-in: если человек перебивает модель, система может остановить генерацию аудио и принять новую реплику без заметного зависания.
- Входное аудио: raw 16-bit PCM, 16 kHz, little-endian Выходное аудио: raw PCM без отдельного TTS-шага Визуальный контекст: кадры JPEG или PNG примерно с частотой 1 FPS * Инструменты: function calling, tool use, управление длинными сессиями и ephemeral tokens По данным Google, модель набрала 90,8% на ComplexFuncBench Audio — бенчмарке для многошагового вызова функций по аудио. На Audio MultiChallenge от Scale AI у неё 36,1% с включённым thinking-режимом, где проверяются сложные инструкции, длинный горизонт рассуждений и типичные для живой речи паузы и перебивания. Ещё одна практичная деталь — поддержка более чем 90 языков для мультимодального общения в реальном времени. То есть Google продвигает Flash Live не как демо для красивых разговоров, а как базовый слой для production-сценариев.
Где модель пригодится Google уже показывает не абстрактные промо-сценарии, а прикладные кейсы.
В Stitch голосом можно обсуждать дизайн: агент видит холст и выбранные экраны, комментирует решения и предлагает вариации. Устройство Ato для пожилых пользователей опирается на мультиязычность модели, чтобы превращать ежедневные разговоры в более естественное общение. А команда Weekend использует Flash Live для RPG-формата, где AI-ведущий должен не только отвечать быстро, но и держать характер, ритм и театральную подачу без провалов между репликами.
Важно и то, что Google не оставляет модель только внутри AI Studio. Для разработчиков она доступна в preview через Gemini Live API, для enterprise-сценариев — в Gemini Enterprise for Customer Experience, а для обычных пользователей её уже встраивают в Gemini Live и Search Live. Компания утверждает, что в Gemini Live ответы стали быстрее, а нить разговора удерживается примерно вдвое дольше, чем раньше.
Параллельно Search Live выходит более чем в 200 стран и территорий. Весь сгенерированный аудиовыход Google маркирует водяным знаком SynthID, чтобы упростить обнаружение AI-голоса.
Что это значит
Google пытается занять слой, где AI общается не сообщениями, а непрерывным диалогом и сразу действует через инструменты. Если Flash Live реально сохранит низкую задержку, устойчивость в шуме и качество function calling в продакшене, рынок голосовых агентов быстро сдвинется от простых «говорящих чатботов» к системам, которые можно встраивать в поддержку, интерфейсы, поиск и повседневные ассистенты.