Mira Murati apresentou o primeiro sistema para diálogo natural com AI em tempo real
O laboratório de Mira Murati, Thinking Machines, apresentou o TML-Interaction-Small, um modelo com 276 bilhões de parâmetros. O sistema processa áudio, vídeo e

Pensar e ouvir simultaneamente — isto é algo que a maioria dos sistemas de IA ainda não conseguia fazer. Thinking Machines Lab, o lab de Mira Murati, apresentou o primeiro protótipo que muda essa regra. O modelo TML-Interaction-Small funciona como um diálogo real entre pessoas: ouve você e prepara uma resposta ao mesmo tempo.
Como funciona a arquitetura multi-thread
TML-Interaction-Small é um modelo com 276 bilhões de parâmetros, onde apenas 12 bilhões estão ativos (formato Mixture-of-Experts). A principal diferença arquitetônica: o sistema processa áudio, vídeo e texto simultaneamente, em um único fluxo de dados. Todos os dados de entrada são divididos em chunks de 200 milissegundos — o tempo exato para o modelo manter-se sincronizado com a conversa real e acompanhar o ritmo da fala humana.
Um detalhe a mais: o sistema funciona sem módulos externos para detecção de atividade de voz (voice-activity detection). Normalmente, esses módulos se tornam um gargalo — adicionam latência e complicam a arquitetura. Aqui, tudo está embutido diretamente na rede neural.
Isso elimina atrasos desnecessários e torna o sistema muito mais responsivo e dinâmico.
Motores paralelos para tarefas diferentes
O sistema funciona com dois componentes em paralelo. O primeiro — real-time interaction model — é responsável pelo diálogo ao vivo com o usuário e garante troca de informações full-duplex (você pode interromper o sistema, falar simultaneamente). O segundo componente — asynchronous background model — pensa em segundo plano, trabalha com ferramentas externas e bancos de dados, sempre tem acesso completo ao contexto da conversa.
- O primeiro motor lida com respostas rápidas em tempo real
- O segundo motor fornece pensamento profundo e operações complexas
- Ambos os componentes veem e entendem o contexto completo de toda a conversa
- A percepção não congela durante a geração de resposta
- O processamento de informações ocorre em fluxo contínuo, não em estágios separados
Revolução do processamento sequencial para o paralelo
Quase todos os assistentes de IA modernos funcionam por um esquema sequencial: você termina de falar → o sistema congela a percepção → processa palavras → produz uma resposta pronta. TML-Interaction-Small quebra essa lógica. Ouve o usuário e simultaneamente prepara uma resposta, como em um diálogo real entre duas pessoas. Essa abordagem requer uma arquitetura completamente diferente. Em vez de momentos discretos, o sistema processa dados multimodais como um fluxo contínuo. Isso permite que o modelo capture entonação, pausas, emoções, contexto conversacional. Como resultado, o assistente de IA não parece robótico, mas sim como um parceiro de conversa vivo.
O que isso significa para a interação
Este é o primeiro passo prático em direção a um diálogo verdadeiramente natural entre humanos e IA. Em vez de esperar pela próxima resposta, você poderá interromper, esclarecer, discordar — interagir como com um consultor real. Para as empresas, isso significa novas oportunidades para criar assistentes que pareçam vivos, não frios e distantes.