OpenAI adiciona GPT-Realtime-2, Translate e Whisper à API para aplicações de voz
A OpenAI anunciou de uma vez três modelos de voz realtime para a API. GPT-Realtime-2 oferece raciocínio no nível do GPT-5, pode invocar ferramentas e suporta at

Em 7 de maio de 2026, a OpenAI apresentou três modelos de voz em tempo real à sua API: GPT-Realtime-2 para diálogo e ações, GPT-Realtime-Translate para tradução ao vivo e GPT-Realtime-Whisper para transcrição por streaming. A empresa está claramente movendo interfaces de voz de um modo "responder a entrada" para um modo em que o assistente pode ouvir, raciocinar, usar ferramentas e manter a continuidade da conversa.
Três Modelos de Uma Vez
A ideia principal do lançamento é simples: a voz em aplicações deve funcionar não como uma sobreposição decorativa, mas como uma interface completa. A OpenAI observa que desenvolvedores estão construindo cada vez mais três tipos de cenários: voice-to-action, onde usuários formulam tarefas por voz e o sistema as executa; systems-to-voice, onde o software informa os usuários sobre o que está acontecendo; e voice-to-voice, onde IA ajuda a facilitar conversas entre pessoas que falam idiomas diferentes. A nova linha de modelos foi montada para abordar essa gama de cenários.
- GPT-Realtime-2 — modelo de voz com raciocínio no nível GPT-5, suportando chamadas de ferramentas e janelas de contexto mais longas.
- GPT-Realtime-Translate — tradução de fala em tempo real de mais de 70 idiomas de entrada para 13 idiomas de saída com pausas mínimas.
- GPT-Realtime-Whisper — transcrição por streaming que escreve o texto conforme a fala ocorre, em vez de após uma frase ser concluída.
- Os preços também foram anunciados imediatamente: GPT-Realtime-2 custa $32 por 1 milhão de tokens de áudio de entrada e $64 por 1 milhão de tokens de saída, Translate — $0,034 por minuto, Whisper — $0,017 por minuto.
Todos os três modelos já estão disponíveis através da API Realtime, e podem ser testados no Playground. Este é um momento importante: a OpenAI não está mostrando um conceito distante, mas lançando um conjunto de ferramentas pronto para equipes que constroem serviços de suporte, agentes de voz, tradução em tempo real, notas de reunião e outros produtos envolvendo fala ao vivo. Para o mercado, isso sinala que as ferramentas estão prontas não apenas para demos, mas também para pilotos.
O Que Melhorou no Diálogo
A atualização mais notável está na GPT-Realtime-2. O modelo pode inserir breves frases de serviço como "deixa eu verificar" para que os usuários entendam que o sistema está trabalhando em uma tarefa. Ele pode chamar múltiplas ferramentas em paralelo, indicar verbalmente suas ações, se recuperar melhor de erros e interrupções, e lidar com cenários notavelmente mais longos: a janela de contexto cresceu de 32K para 128K. Para produção, isso importa muito mais do que uma "voz agradável", porque assistentes reais normalmente quebram em longas cadeias de interações.
A OpenAI enfatiza especificamente a controlabilidade do modelo. Desenvolvedores podem escolher o nível de raciocínio de minimal a xhigh, equilibrando latência e qualidade de resposta. A compreensão de terminologia especializada, nomes próprios e vocabulário específico do domínio — por exemplo, termos médicos — também melhorou.
Em avaliações internas, GPT-Realtime-2 no modo high mostrou resultados 15,2% melhores que GPT-Realtime-1.5 no Big Bench Audio, e no modo xhigh — 13,8% melhores no Audio MultiChallenge para seguimento de instruções em conversa.
"Depois de ajustar prompts, vimos as taxas de sucesso de chamadas melhorarem de 69% para 95%," — é assim que
Zillow descreve testes iniciais de GPT-Realtime-2.
Tradução e Transcrição
O segundo modelo, GPT-Realtime-Translate, tem como alvo diálogo multilíngue ao vivo. Ele traduz fala conforme a conversa desenrola, preservando o ritmo do falante e o significado mesmo quando pessoas falam com sotaque, pulam entre tópicos ou usam terminologia específica da indústria. A OpenAI destaca especificamente casos de uso em suporte, vendas transfronteiriças, educação, eventos, mídia e plataformas de autores.
Deutsche Telekom está testando o modelo para suporte ao cliente multilíngue, enquanto Vimeo demonstra um cenário onde vídeo educacional é traduzido durante a reprodução.
O terceiro modelo, GPT-Realtime-Whisper, aborda uma tarefa mais prática mas altamente demandada: converter fala em texto rapidamente. A OpenAI a posiciona como fundação para legendas, notas de reunião, transcrição de aulas, transmissões ao vivo e agentes de voz que precisam continuamente entender o que os usuários estão dizendo.
Ao mesmo tempo, a empresa nos lembra sobre mecanismos de proteção: a API Realtime usa classificadores ativos, algumas sessões podem ser interrompidas se as regras forem violadas, e desenvolvedores devem informar claramente aos usuários quando estão falando com uma IA.
O Que Isso Significa
A OpenAI está tentando ocupar não apenas o mercado de modelos de chat, mas também a camada fundamental para produtos de voz. Se qualidade e latência realmente correspondem às métricas declaradas, a empresa ganha uma posição forte em call centers, serviços de viagem, plataformas educacionais e assistentes corporativos, onde conversa estável, tradução sem pausas e texto aparecendo no mesmo momento em que o usuário fala importam mais do que demos impressionantes.