MarkTechPost→ original

Google presentó Gemini 3.1 Flash TTS — modelo de habla con control, diálogos e idiomas 70+

Google lanzó Gemini 3.1 Flash TTS — un nuevo modelo TTS en vista previa con énfasis en naturalidad y control. Admite 70+ idiomas, genera nativamente diálogos…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Google presentó Gemini 3.1 Flash TTS — modelo de habla con control, diálogos e idiomas 70+
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Google lanzó Gemini 3.1 Flash TTS en vista previa — un nuevo modelo de síntesis de voz que apuesta no simplemente en la locución de texto, sino en la dirección de voz gestionada. La diferencia clave del lanzamiento es que los desarrolladores pueden definir entonación, ritmo, acento e incluso cambios emocionales directamente en el prompt de texto, en lugar de elegir el resultado a ciegas a través de un conjunto de parámetros fijos.

Para el mercado de IA de voz, este es un cambio notable: la síntesis de texto a voz cada vez parece menos una caja negra y cada vez más una herramienta de dirección. El lanzamiento ya se está distribuyendo en modo vista previa para desarrolladores a través de Gemini API y Google AI Studio, para clientes corporativos a través de Vertex AI, y para usuarios de Workspace a través de Google Vids. Según Google, Gemini 3.

1 Flash TTS obtuvo 1211 puntos Elo en la clasificación Artificial Analysis TTS, que se basa en comparaciones ciegas de calidad de voz por usuarios. La empresa llama al modelo el más natural y expresivo de su línea de TTS. Google también enfatiza la combinación de alta calidad y costo relativamente bajo, es decir, el modelo apunta no solo a escenarios de demostración sino también a casos de uso de productos masivos.

La característica clave de la actualización es audio tags — comandos de texto incorporados que permiten controlar exactamente cómo se pronuncia una frase. Los desarrolladores pueden describir una escena, asignar un perfil de voz a un personaje, agregar instrucciones de dirección sobre tono y ritmo, y luego refinar líneas individuales o incluso partes de una sola línea a través de etiquetas inline entre corchetes. En otras palabras, la misma frase puede sonar tranquila, irritada, susurrada o acelerada sin cambiar a un pipeline diferente. En Google AI Studio, agregaron controles configurables para esto, y las configuraciones listas para usar se pueden exportar a código de Gemini API para mantener un sonido consistente entre proyectos y plataformas.

El segundo enfoque importante es la escala global. Gemini 3.1 Flash TTS admite más de 70 idiomas y apuesta no solo en la conversión formal de texto a audio, sino también en características del habla local: acentos, matices dialectales y ritmo de entrega.

Para los equipos de producto, esto es especialmente importante en escenarios de localización, doblaje, asistente de voz, podcasts, videos educativos y audiolibros. Otra diferencia notable es el modo nativo multi-speaker. El modelo puede generar diálogos entre dos hablantes en una única solicitud sin dividir la conversación en llamadas API separadas.

Esto debería proporcionar un ritmo más natural y consistencia de líneas que el esquema clásico, donde cada voz se sintetiza por separado y luego se une en el lado de la aplicación.

Google también incorporó marcas de agua SynthID en todo el audio generado. No deben ser notables para el oyente, pero permiten determinar de forma fiable que la grabación fue creada por IA. Ante el crecimiento de la calidad del habla sintética, esto ya no es una opción adicional sino un elemento básico de seguridad: cuanto más convincente sea la voz, más importante es la capacidad de verificar su origen por máquina.

Al mismo tiempo, el modelo está actualmente en vista previa y tiene limitaciones. En la documentación, Google señala que TTS aquí no admite streaming, las respuestas largas a lo largo de varios minutos pueden perder estabilidad y calidad, y en casos raros el servicio devuelve tokens de texto en lugar de audio, lo que causa que la solicitud falle con error 500. Un matiz separado se refiere a los prompts: si la instrucción es vaga, el modelo puede rechazar la solicitud o pronunciar literalmente las notas de dirección del servicio.

La conclusión aquí es simple: Google está intentando transformar la síntesis de voz de una herramienta API estrecha en parte de una plataforma Gemini completamente multimodal. Gemini 3.1 Flash TTS es interesante no solo porque suena mejor que las versiones anteriores, sino también porque proporciona a los desarrolladores una interfaz más clara y manejable para trabajar con voz. Si la empresa estabiliza rápidamente las generaciones largas y mantiene el equilibrio precio-calidad, tiene buenas posibilidades de establecerse no solo en la capa de infraestructura sino también en productos de voz creativa, donde los servicios TTS especializados han dominado hasta ahora.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…