A OpenAI está integrando ao ChatGPT o Bidi 1 — um modelo de voz que fala e ouve ao mesmo tempo
A OpenAI está transformando o ChatGPT em um superapp. Está em desenvolvimento uma grande atualização com três componentes principais: Codex (um assistente de…
Processado por IA de 3DNews AI; editado por Hamidun News
OpenAI está acelerando a transformação do ChatGPT em um super app: a empresa está desenvolvendo simultaneamente um modelo de voz bidirecional Bidi 1, integrando um assistente programador Codex e expandindo capacidades de agentes.
O que é o GPT Bidi 1
No código do aplicativo móvel do ChatGPT, pesquisadores descobriram rastros de um novo modelo de áudio com o nome em código GPT Bidi 1. "Bidi" significa bidirectional — bidirecional. Esta é uma abordagem fundamentalmente diferente em comparação com o modo de voz atual, onde o modelo alterna sequencialmente entre ouvir e responder: primeiro ouve, depois fala — como um rádio com botão "enviar".
O modo duplex muda a própria dinâmica do diálogo. O usuário poderá interromper o assistente no meio da frase, e o assistente poderá reagir à entonação, pausas e ritmo da fala em tempo real, sem esperar por uma pausa. O atraso entre as falas diminui notavelmente, e a conversa se torna menos robótica.
Assim funcionam as interfaces de voz mais avançadas: Apple Intelligence no iOS 18 e Google Duplex já suportam câmbio duplex completo há tempos.
O que muda com o Bidi 1:
- voz e audição funcionam simultaneamente — sem fila no "ar"
- o usuário pode interromper a resposta a qualquer momento
- o tempo de resposta entre as falas é reduzido
- o assistente ouve a entonação e reage às pausas
- a conversa soa mais natural e próxima a um diálogo com um humano
A data específica de lançamento do Bidi 1 ainda não foi anunciada, mas a presença do modelo no código de produção do ChatGPT sugere que o lançamento está próximo.
Codex dentro do ChatGPT
Em paralelo com o desenvolvimento de voz, OpenAI está integrando seu assistente programador Codex ao ChatGPT. Até agora, o Codex existia como um produto separado com sua própria interface. Após a integração, você poderá escrever, depurar e explicar código diretamente na janela de chat principal sem trocar abas. Para desenvolvedores que já fizeram do ChatGPT parte de seu fluxo de trabalho, esta é uma simplificação significativa: em vez de duas ferramentas separadas, haverá um espaço de trabalho unificado. O Codex estará disponível no mesmo diálogo que a pesquisa na web, geração de imagens, análise de arquivos e — em breve — o modo de voz Bidi 1.
Agentes — a terceira frente
O terceiro componente da atualização em larga escala é as ferramentas para agentes de IA. O ChatGPT está se transformando sistematicamente de um chatbot reativo em um assistente proativo capaz de executar tarefas multi-etapas autonomamente: reservar passagens, comparar produtos em marketplaces, preencher formulários online, procurar e sintetizar informações de diferentes fontes.
"Queremos fazer do
ChatGPT um aplicativo que faça tudo por você que você normalmente faz na internet", dizem fontes familiarizadas com a estratégia da OpenAI.
Os três componentes — voz ao vivo Bidi 1, Codex integrado e agentes autônomos — se reforçam mutuamente. Um agente com voz duplex e a capacidade de escrever código é uma classe fundamentalmente diferente de ferramenta, não apenas um chatbot atualizado.
O que isso significa
OpenAI está se movendo deliberadamente em direção a um formato de super app — um único produto que abrange a maioria dos cenários cotidianos: voz, código, automação de tarefas, busca de informações. Para o usuário médio, a consequência imediata é que conversas com ChatGPT se tornarão notavelmente mais vivas e naturais. Para negócios, isso significa um novo nível de automação de tarefas operacionais que antes exigiam um humano ou um conjunto de ferramentas SaaS separadas. Concorrentes — de Google a Anthropic — terão que acelerar novamente.
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).