MarkTechPost→ original

Mira Murati presentó el primer sistema para un diálogo natural con AI en tiempo real

El laboratorio de Mira Murati, Thinking Machines, presentó TML-Interaction-Small, un modelo de 276.000 millones de parámetros. El sistema procesa audio, video y

Mira Murati presentó el primer sistema para un diálogo natural con AI en tiempo real
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Pensar y escuchar simultáneamente — esto es algo que la mayoría de sistemas de IA aún no podían hacer. Thinking Machines Lab, el laboratorio de Mira Murati, presentó el primer prototipo que cambia esta regla. El modelo TML-Interaction-Small funciona como un diálogo real entre personas: te escucha y prepara una respuesta al mismo tiempo.

Cómo funciona la arquitectura multiproceso

TML-Interaction-Small es un modelo con 276 mil millones de parámetros, donde solo 12 mil millones están activos (formato Mixture-of-Experts). La principal diferencia arquitectónica: el sistema procesa audio, vídeo y texto simultáneamente, en un único flujo de datos. Todos los datos de entrada se dividen en fragmentos de 200 milisegundos — justo lo que necesita el modelo para mantenerse sincronizado con la conversación real y seguir el ritmo del habla humana.

Un detalle más: el sistema funciona sin módulos externos para la detección de actividad de voz (voice-activity detection). Normalmente, estos módulos se convierten en un cuello de botella — añaden latencia y complican la arquitectura. Aquí, todo está integrado directamente en la red neuronal.

Esto elimina retrasos innecesarios y hace el sistema mucho más receptivo y dinámico.

Motores paralelos para diferentes tareas

El sistema funciona con dos componentes en paralelo. El primero — real-time interaction model — es responsable del diálogo en vivo con el usuario y asegura un intercambio de información full-duplex (puedes interrumpir el sistema, hablar simultáneamente). El segundo componente — asynchronous background model — piensa en segundo plano, trabaja con herramientas externas y bases de datos, siempre tiene acceso completo al contexto de la conversación.

  • El primer motor gestiona respuestas rápidas en tiempo real
  • El segundo motor proporciona pensamiento profundo y operaciones complejas
  • Ambos componentes ven y comprenden el contexto completo de toda la conversación
  • La percepción no se congela durante la generación de respuesta
  • El procesamiento de información ocurre en un flujo continuo, no en etapas separadas

La revolución del procesamiento secuencial al paralelo

Casi todos los asistentes de IA modernos funcionan mediante un esquema secuencial: terminas de hablar → el sistema congela la percepción → procesa palabras → produce una respuesta lista. TML-Interaction-Small rompe esta lógica. Escucha al usuario y simultáneamente prepara una respuesta, como en un diálogo real entre dos personas. Este enfoque requiere una arquitectura completamente diferente. En lugar de momentos discretos, el sistema procesa datos multimodales como un flujo continuo. Esto permite que el modelo capture entonación, pausas, emociones, contexto conversacional. Como resultado, el asistente de IA no se ve robótico, sino como un socio conversacional vivo.

Qué significa esto para la interacción

Este es el primer paso práctico hacia un diálogo verdadeiramente natural entre humanos e IA. En lugar de esperar la siguiente respuesta, podrás interrumpir, aclarar, discutir — interactuar como con un consultor real. Para las empresas, esto significa nuevas oportunidades para crear asistentes que parezcan vivos, no fríos y distantes.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…