MarkTechPost→ original

Google apresentou Gemini 3.1 Flash TTS — modelo de fala com controle, diálogos e 70+ idiomas

Google lançou Gemini 3.1 Flash TTS — um novo modelo TTS em pré-visualização com ênfase em naturalidade e controle. Oferece suporte a 70+ idiomas, gera…

Processado por IA de MarkTechPost; editado por Hamidun News
Google apresentou Gemini 3.1 Flash TTS — modelo de fala com controle, diálogos e 70+ idiomas
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

Google lançou o Gemini 3.1 Flash TTS em preview — um novo modelo de síntese de fala que aposta não simplesmente na locução de texto, mas na direção de voz gerenciada. A diferença-chave do lançamento é que desenvolvedores podem definir entonação, ritmo, sotaque e até mudanças emocionais diretamente no prompt de texto, em vez de escolher o resultado às cegas através de um conjunto de parâmetros fixos.

Para o mercado de IA de voz, essa é uma mudança notável: a síntese de texto para voz cada vez menos parece uma caixa preta e cada vez mais parece uma ferramenta de direção. O lançamento já está sendo distribuído em modo preview para desenvolvedores via Gemini API e Google AI Studio, para clientes corporativos via Vertex AI, e para usuários do Workspace via Google Vids. Segundo o Google, o Gemini 3.

1 Flash TTS obteve 1211 pontos Elo no ranking Artificial Analysis TTS, que se baseia em comparações cegas de qualidade de fala pelos usuários. A empresa chama o modelo de o mais natural e expressivo em sua linha de TTS. O Google também enfatiza a combinação de alta qualidade e custo relativamente baixo, ou seja, o modelo visa não apenas cenários de demonstração, mas também casos de uso de produtos em massa.

O recurso-chave da atualização é as audio tags — comandos de texto incorporados que permitem controlar exatamente como uma frase é pronunciada. Desenvolvedores podem descrever uma cena, atribuir um perfil de voz a um personagem, adicionar instruções de direção sobre tom e ritmo, e então refinar linhas individuais ou até partes de uma única linha através de tags inline entre colchetes. Em outras palavras, a mesma frase pode soar calma, irritada, sussurrada ou acelerada sem mudar para um pipeline diferente. No Google AI Studio, eles adicionaram controles configuráveis para isso, e as configurações prontas podem ser exportadas para código da Gemini API para manter o som consistente entre projetos e plataformas.

O segundo grande foco é a escala global. O Gemini 3.1 Flash TTS oferece suporte a mais de 70 idiomas e aposta não apenas na conversão formal de texto em áudio, mas também nas características de fala locais: sotaques, nuances dialetais e ritmo de entrega.

Para equipes de produtos, isso é especialmente importante em cenários de localização, dublagem, assistente de voz, podcasts, vídeos educacionais e audiolivros. Outra diferença notável é o modo nativo multi-speaker. O modelo pode gerar diálogos entre dois falantes em uma única solicitação sem quebrar a conversa em chamadas API separadas.

Isso deve fornecer um ritmo mais natural e consistência nas linhas do que o esquema clássico, onde cada voz é sintetizada separadamente e depois costurada no lado da aplicação.

O Google também incorporou marcas d'água SynthID em todo o áudio gerado. Elas não devem ser perceptíveis para o ouvinte, mas permitem determinar de forma confiável que a gravação foi criada por IA. Diante do crescimento da qualidade da fala sintética, isso não é mais uma opção adicional, mas um elemento básico de segurança: quanto mais convincente a voz, mais importante é a capacidade de verificar sua origem por máquina.

Ao mesmo tempo, o modelo está atualmente em preview e tem limitações. Na documentação, o Google observa que o TTS aqui não oferece suporte a streaming, respostas longas ao longo de vários minutos podem perder estabilidade e qualidade, e em casos raros o serviço retorna tokens de texto em vez de áudio, causando a falha da solicitação com erro 500. Uma nuance separada diz respeito aos prompts: se a instrução for vaga, o modelo pode rejeitar a solicitação ou literalmente pronunciar as notas de direção de serviço.

A conclusão aqui é simples: o Google está tentando transformar a síntese de fala de uma ferramenta API estreita em parte de uma plataforma Gemini totalmente multimodal. O Gemini 3.1 Flash TTS é interessante não apenas porque soa melhor que as versões anteriores, mas também porque oferece aos desenvolvedores uma interface mais clara e gerenciável para trabalhar com voz. Se a empresa estabilizar rapidamente as gerações longas e manter o equilíbrio preço-qualidade, ela tem boas chances de se estabelecer não apenas na camada de infraestrutura, mas também em produtos de voz criativa, onde serviços TTS especializados dominaram até agora.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…