Google Lança Gemini 3.1 Flash Live para Agentes IA por Voz e Diálogo Multimodal
Google lançou o Gemini 3.1 Flash Live em prévia através da API Gemini Live no AI Studio. É um modelo multimodal para agentes de voz e visuais que responde…
Processado por IA de MarkTechPost; editado por Hamidun News
Google lançou o Gemini 3.1 Flash Live em 26 de março de 2026, abrindo acesso em preview para um novo modelo de agentes de IA com voz em tempo real. O objetivo é eliminar delays desnecessários na conversa, entender melhor a entonação e trabalhar imediatamente não apenas com áudio, mas também com vídeo, texto e ferramentas externas.
Por que isso é importante
O principal problema dos antigos sistemas de voz não era a qualidade das respostas, mas as pausas entre as trocas. Primeiro o sistema esperava silêncio, depois convertia fala em texto, então enviava uma solicitação para o LLM e somente depois sintetizava a voz. Google ataca diretamente essa cadeia e move o processamento de áudio para dentro do próprio modelo.
O Gemini 3.1 Flash Live trabalha com nuances acústicas diretamente, não apenas através de uma transcrição, então a conversa deve parecer mais próxima do ritmo humano ordinário. Google coloca ênfase particular no funcionamento em ambientes barulhentos.
O modelo separa melhor a fala útil de sons de fundo como tráfego, televisão ou conversas próximas, e reconhece com mais precisão entonação, ritmo e sinais emocionais do falante. Em cenários corporativos isso é tão importante quanto a velocidade: um agente de voz não deve apenas responder, mas entender que o usuário está frustrado, confuso ou interrompeu o sistema no meio da frase. Para assistentes móveis e centros de contato este é um dos updates mais práticos da linha Gemini.
O que a Live API consegue fazer
Do ponto de vista técnico, Google oferece aos desenvolvedores uma interface de streaming bidirecional e com estado sobre WebSockets. Isso não é um API REST típico com solicitações e respostas separadas, mas uma conexão persistente onde cliente e modelo trocam dados nos dois sentidos. Por isso, o agente pode ouvir o usuário, observar contexto visual recebido, chamar ferramentas e retornar imediatamente uma resposta em voz. Há também barge-in: se uma pessoa interrompe o modelo, o sistema pode parar a geração de áudio e aceitar uma nova fala sem delays notáveis.
- Áudio de entrada: raw 16-bit PCM, 16 kHz, little-endian
- Áudio de saída: raw PCM sem um passo TTS separado
- Contexto visual: frames JPEG ou PNG em aproximadamente 1 FPS
- Ferramentas: function calling, tool use, gerenciamento de sessões longas e ephemeral tokens
De acordo com Google, o modelo pontuou 90,8% no ComplexFuncBench Audio — um benchmark para chamada de funções multi-passos via áudio. No Audio MultiChallenge do Scale AI obteve 36,1% com mode thinking ativado, que testa instruções complexas, horizontes de raciocínio longos e pausas e interrupções típicas de fala ao vivo. Outro detalhe prático é o suporte para mais de 90 idiomas para comunicação multimodal em tempo real. Ou seja, Google está promovendo Flash Live não como demo para conversas bonitas, mas como uma camada fundamental para cenários de produção.
Onde o modelo será útil
Google já está mostrando não cenários promo abstratos, mas casos de uso aplicados. Em Stitch você pode discutir design por voz: o agente vê a tela e os ecrãs selecionados, comenta sobre decisões e sugere variações. O dispositivo Ato para usuários idosos aproveita o suporte multilíngue do modelo para transformar conversas cotidianas em comunicação mais natural.
E o time Weekend usa Flash Live para um formato RPG, onde o host de IA não deve apenas responder rápido, mas manter caráter, ritmo e entrega teatral sem lacunas entre trocas. Também é importante que Google não está mantendo o modelo confinado ao AI Studio. Para desenvolvedores está disponível em preview através da Gemini Live API, para cenários enterprise — em Gemini Enterprise for Customer Experience, e para usuários comuns já está sendo incorporado em Gemini Live e Search Live.
A empresa afirma que em Gemini Live as respostas ficaram mais rápidas e a thread de conversa é mantida aproximadamente o dobro do tempo de antes. Em paralelo, Search Live está sendo lançado em mais de 200 países e territórios. Todo o áudio gerado Google marca com watermark SynthID para simplificar a detecção de voz de IA.
O que isso significa
Google está tentando ocupar uma camada onde IA se comunica não por mensagens, mas por diálogo contínuo e age imediatamente através de ferramentas. Se Flash Live realmente mantiver baixa latência, robustez ao ruído e qualidade de function calling em produção, o mercado de agentes de voz mudará rapidamente de simples "chatbots falantes" para sistemas que podem ser incorporados em suporte, interfaces, busca e assistentes cotidianos.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.