MarkTechPost→ original

Google Lanza Gemini 3.1 Flash Live para Agentes IA por Voz y Diálogo Multimodal

Google lanzó Gemini 3.1 Flash Live en vista previa a través de la API Gemini Live en AI Studio. Es un modelo multimodal para agentes de voz y visuales que…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Google Lanza Gemini 3.1 Flash Live para Agentes IA por Voz y Diálogo Multimodal
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Google lanzó Gemini 3.1 Flash Live el 26 de marzo de 2026, abriendo acceso en preview a un nuevo modelo para agentes de IA de voz en tiempo real. El objetivo es eliminar retrasos innecesarios en la conversación, entender mejor la entonación y trabajar inmediatamente no solo con audio, sino también con vídeo, texto y herramientas externas.

Por qué esto es importante

El principal problema de los antiguos sistemas de voz no era la calidad de las respuestas, sino las pausas entre los intercambios. Primero el sistema esperaba silencio, luego convertía el habla a texto, entonces enviaba una solicitud al LLM y solo después sintetizaba la voz. Google ataca directamente esta cadena y traslada el procesamiento de audio dentro del propio modelo.

Gemini 3.1 Flash Live trabaja con matices acústicos directamente, no solo a través de una transcripción, por lo que la conversación debería sentirse más cercana al ritmo humano ordinario. Google hace especial hincapié en el funcionamiento en entornos ruidosos.

El modelo separa mejor el habla útil de los sonidos de fondo como el tráfico, la televisión o las conversaciones cercanas, y reconoce con mayor precisión la entonación, el ritmo y las señales emocionales del interlocutor. En escenarios corporativos esto es tan importante como la velocidad: un agente de voz no solo debe responder, sino entender que el usuario está frustrado, confundido o interrumpió el sistema a mitad de frase. Para asistentes móviles y centros de contacto esta es una de las actualizaciones más prácticas de la línea Gemini.

Qué puede hacer la Live API

Desde el punto de vista técnico, Google proporciona a los desarrolladores una interfaz de streaming bidireccional y con estado sobre WebSockets. Esto no es un API REST típico con solicitudes y respuestas separadas, sino una conexión persistente donde cliente y modelo intercambian datos en ambas direcciones. Por esto, el agente puede escuchar al usuario, observar el contexto visual entrante, llamar herramientas y retornar inmediatamente una respuesta de voz. También existe barge-in: si una persona interrumpe el modelo, el sistema puede detener la generación de audio y aceptar un nuevo enunciado sin retraso notable.

  • Audio de entrada: PCM raw 16-bit, 16 kHz, little-endian
  • Audio de salida: PCM raw sin paso TTS separado
  • Contexto visual: fotogramas JPEG o PNG aproximadamente a 1 FPS
  • Herramientas: function calling, tool use, gestión de sesiones largas y ephemeral tokens

Según Google, el modelo obtuvo 90,8% en ComplexFuncBench Audio — un benchmark para llamadas de funciones multietapa vía audio. En Audio MultiChallenge de Scale AI alcanzó 36,1% con modo thinking habilitado, que prueba instrucciones complejas, horizontes de razonamiento largos y pausas e interrupciones típicas del habla en vivo. Otro detalle práctico es el soporte para más de 90 idiomas para comunicación multimodal en tiempo real. Es decir, Google está impulsando Flash Live no como demo para conversaciones bonitas, sino como capa fundamental para escenarios de producción.

Dónde será útil el modelo

Google ya está mostrando no escenarios promo abstractos, sino casos de uso aplicados. En Stitch puedes discutir diseño por voz: el agente ve el lienzo y las pantallas seleccionadas, comenta sobre decisiones y sugiere variaciones. El dispositivo Ato para usuarios mayores aprovecha el soporte multilingüe del modelo para transformar conversaciones cotidianas en comunicación más natural.

Y el equipo Weekend utiliza Flash Live para un formato RPG, donde el host de IA no solo debe responder rápidamente, sino mantener carácter, ritmo y entrega teatral sin brechas entre intercambios. También es importante que Google no está manteniendo el modelo confinado a AI Studio. Para desarrolladores está disponible en preview a través de Gemini Live API, para escenarios enterprise — en Gemini Enterprise for Customer Experience, y para usuarios comunes ya se está integrando en Gemini Live y Search Live.

La empresa afirma que en Gemini Live las respuestas se volvieron más rápidas y el hilo de conversación se mantiene aproximadamente el doble de tiempo que antes. Paralelamente, Search Live se lanza en más de 200 países y territorios. Todo el audio generado Google lo marca con watermark SynthID para simplificar la detección de voz de IA.

Qué significa esto

Google intenta ocupar una capa donde la IA se comunica no por mensajes, sino por diálogo continuo y actúa inmediatamente a través de herramientas. Si Flash Live realmente mantiene baja latencia, robustez al ruido y calidad de function calling en producción, el mercado de agentes de voz cambiará rápidamente de simples "chatbots hablantes" a sistemas que pueden integrarse en soporte, interfaces, búsqueda y asistentes cotidianos.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…