Thinking Machines cria AI que fala e escuta ao mesmo tempo

A Thinking Machines está trabalhando em uma AI que escuta e responde ao mesmo tempo, como em uma conversa telefônica. Modelos convencionais funcionam de…

Redação da Hamidun News

Monitoramento de AI · TechCrunch

16 de mai. de 2026· 2 min

Processado por IA de TechCrunch; editado por Hamidun News

Thinking Machines cria AI que fala e escuta ao mesmo tempo — Fonte: TechCrunch. Colagem: Hamidun News.

◐ Ouvir artigo

Agora, cada modelo de IA funciona com um único princípio: você escreve, o modelo escuta. Você espera, o modelo responde. Thinking Machines está tentando mudar isso, criando uma arquitetura que processa sua mensagem e gera uma resposta simultaneamente — como uma conversa telefônica normal.

O Problema da Abordagem Atual

Todos os modelos de linguagem modernos — de ChatGPT a Claude — funcionam no princípio de requisição-resposta. Você envia uma mensagem completa, o modelo a processa completamente e depois gera uma resposta completa. Isso cria a sensação de que você está conversando com um robô, não com uma pessoa.

Em uma conversa real, é diferente. As pessoas escutam enquanto geram uma resposta. Você pode interromper alguém, esclarecer um detalhe, adicionar contexto — e a pessoa reage na hora, sem começar do zero. Ninguém espera o outro terminar um discurso completo para repensar completamente a resposta.

Isso cria um fluxo natural e orgânico do diálogo. A abordagem atual de IA estabelece uma fronteira rígida: entrada concluída → processamento → saída concluída. Não há flexibilidade, não há adaptação durante o processo, não há sensação de comunicação bidirecional.

O que Thinking Machines Faz

A startup está desenvolvendo um modelo que processa o fluxo de entrada em tempo real e simultaneamente gera um fluxo de saída. Em vez de esperar pela entrada completa, o sistema começa a responder enquanto recebe informações do usuário. Isso abre várias possibilidades fundamentalmente novas:

Escuta enquanto responde — reagir a novos dados sem recarregar o contexto
Interrupções naturais — interromper, como em um diálogo vivo entre pessoas
Adaptação de entonação — mudar o tom em resposta a sinais de voz em tempo real
Sinais não-verbais — considerar gestos e expressões faciais em conversas por vídeo
Latência mínima — sem pausas mortas entre as trocas

Para assistentes de voz, isso é crítico. Quando você liga para um call center ou pede um táxi por voz, você não quer esperar 3–5 segundos de processamento. Você fala — o assistente escuta e responde imediatamente, como uma pessoa.

A Complexidade Arquitetônica do Problema

O processamento simultâneo de entrada e geração de saída é uma reformulação arquitetônica profunda. Os Transformers, sobre os quais quase todos os LLMs modernos são construídos, são projetados para operação sequencial: ler o contexto inteiro, gerar tokens um por um. Mudar esse princípio fundamental significa reescrever a mecânica de atenção, cache e previsão.

Você precisa manter um contexto crescente do fluxo de entrada enquanto simultaneamente gera saída, sem perder coerência e lógica da resposta. Os desafios práticos não são menos sérios: qualidade da resposta (elas não se tornam precipitadas e incompletas?), latência (é necessária latência mínima para naturalidade), gerenciamento de memória para fluxos crescentes. Como você mantém o fio da conversa se a resposta está rodando em paralelo com a entrada? Como você não perde um detalhe no final de uma mensagem se já começou a responder ao começo?

O Que Isso Significa

Se essa abordagem funcionar, o diálogo com IA deixará de parecer uma interação com um sistema. Será um diálogo — uma conversa real, sem a sensação de rigidez e atraso, mais próxima à comunicação humana.

Para assistentes de voz, chatbots e especialmente call centers, isso é uma melhoria crítica. Um cliente ligou — o assistente escuta imediatamente e responde, pode interromper para esclarecer, adaptar a resposta com base em novas informações. Isso aumentará a satisfação e a velocidade de resolução de problemas muitas vezes.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

Agendar consultoria grátis →