MarkTechPost→ original

Mira Murati a présenté le premier système de dialogue naturel avec l’AI en temps réel

Le laboratoire de Mira Murati, Thinking Machines, a présenté TML-Interaction-Small, un modèle de 276 milliards de paramètres. Le système traite l’audio, la vidé

Mira Murati a présenté le premier système de dialogue naturel avec l’AI en temps réel
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

Penser et écouter simultanément — c'est quelque chose que la plupart des systèmes d'IA n'ont toujours pas pu faire. Thinking Machines Lab, le laboratoire de Mira Murati, a présenté le premier prototype qui change cette règle. Le modèle TML-Interaction-Small fonctionne comme un dialogue réel entre des personnes : il vous écoute et prépare une réponse en même temps.

Comment fonctionne l'architecture multi-thread

TML-Interaction-Small est un modèle avec 276 milliards de paramètres, dont seulement 12 milliards sont actifs (format Mixture-of-Experts). La principale différence architecturale : le système traite l'audio, la vidéo et le texte simultanément, dans un flux de données unique. Toutes les données d'entrée sont divisées en chunks de 200 millisecondes — juste assez pour que le modèle reste synchronisé avec la conversation réelle et ne prenne pas de retard par rapport au rythme de la parole humaine.

Un détail supplémentaire : le système fonctionne sans modules externes pour la détection d'activité vocale (voice-activity detection). Normalement, ces modules deviennent un goulot d'étranglement — ils ajoutent une latence et compliquent l'architecture. Ici, tout est intégré directement dans le réseau de neurones.

Cela élimine les délais inutiles et rend le système beaucoup plus réactif et vivant.

Moteurs parallèles pour différentes tâches

Le système fonctionne avec deux composants en parallèle. Le premier — real-time interaction model — est responsable du dialogue en direct avec l'utilisateur et assure un échange d'informations full-duplex (vous pouvez interrompre le système, parler simultanément). Le deuxième composant — asynchronous background model — réfléchit en arrière-plan, travaille avec des outils externes et des bases de données, a toujours un accès complet au contexte de la conversation.

  • Le premier moteur gère les réponses rapides en temps réel
  • Le deuxième moteur fournit la réflexion profonde et les opérations complexes
  • Les deux composants voient et comprennent le contexte complet de toute la conversation
  • La perception ne gèle pas pendant la génération de réponse
  • Le traitement des informations se fait en flux continu, et non par étapes séparées

La révolution du traitement séquentiel au traitement parallèle

Presque tous les assistants IA modernes fonctionnent selon un schéma séquentiel : vous terminez de parler → le système gèle la perception → traite les mots → produit une réponse toute prête. TML-Interaction-Small brise cette logique. Il écoute l'utilisateur et prépare en même temps une réponse, comme dans un dialogue réel entre deux personnes. Une telle approche nécessite une architecture complètement différente. Au lieu de moments discrets, le système traite les données multimodales comme un flux continu. Cela permet au modèle de capturer l'intonation, les pauses, les émotions, le contexte de la conversation. En résultat, l'assistant IA ne semble pas robotisé, mais comme un véritable partenaire de conversation.

Ce que cela signifie pour l'interaction

C'est la première étape pratique vers un dialogue véritablement naturel entre humains et IA. Au lieu d'attendre la réponse suivante, vous pourrez interrompre, clarifier, contredire — interagir comme avec un véritable consultant. Pour les entreprises, cela signifie de nouvelles opportunités pour créer des assistants qui semblent vivants, non froids et distants.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…