MarkTechPost→ оригинал

Мира Мурати показала первую систему для естественного диалога с ИИ в реальном времени

Лаб Миры Мурати Thinking Machines представила TML-Interaction-Small — модель на 276 миллиардов параметров. Система обрабатывает аудио, видео и текст одновременн

Мира Мурати показала первую систему для естественного диалога с ИИ в реальном времени
Источник: MarkTechPost. Коллаж: Hamidun News.
◐ Слушать статью

Думать и слушать одновременно — это то, что большинство ИИ-систем до сих пор не могли делать. Thinking Machines Lab, лаб Миры Мурати, показала первый прототип, который меняет это правило. Модель TML-Interaction-Small работает как реальный диалог между людьми: слушает вас и готовит ответ в одно и то же время.

Как устроена многопоточная архитектура TML-Interaction-Small — это

модель на 276 миллиардов параметров, где активны только 12 миллиардов (формат Mixture-of-Experts). Главное архитектурное отличие: система обрабатывает аудио, видео и текст одновременно, в едином потоке данных. Все входные данные разбиваются на чанки по 200 миллисекунд — ровно столько, чтобы модель оставалась синхронна с реальным разговором и не отставала от темпа речи человека. Ещё одна деталь: система работает без внешних модулей для определения голоса (voice-activity detection). Обычно такие модули являются узким местом — они добавляют задержку и усложняют архитектуру. Здесь всё встроено прямо в саму нейросеть. Это убирает лишние задержки и делает систему намного более отзывчивой и живой.

Параллельные движки для разных задач Система работает двумя компонентами параллельно.

Первый — real-time interaction model — отвечает за живой диалог с пользователем и обеспечивает полнодуплексный обмен информацией (вы можете прерывать систему, говорить одновременно). Второй компонент — asynchronous background model — тем временем думает в фоне, работает с внешними инструментами и базами данных, всегда имеет полный доступ к контексту разговора.

  • Первый движок отвечает за быстрые ответы в реальном времени Второй движок обеспечивает глубокое мышление и сложные операции Оба компонента видят и понимают полный контекст всей беседы Восприятие не замораживается во время генерации ответа Обработка информации идёт непрерывным потоком, а не по отдельным этапам ## Революция от последовательной обработки к параллельной Почти все современные ИИ-ассистенты работают по последовательной схеме: вы заканчиваете говорить → система замораживает восприятие → обрабатывает слова → выдаёт готовый ответ. TML-Interaction-Small нарушает эту логику. Она слушает пользователя и одновременно готовит ответ, как в реальном диалоге между двумя людьми. Для такого подхода нужна совершенно другая архитектура. Вместо дискретных моментов система обрабатывает мультимодальные данные как непрерывный поток. Это позволяет модели улавливать интонацию, паузы, эмоции, контекст беседы. В результате ИИ-ассистент не выглядит роботизированным, а кажется живым собеседником.

Что это значит для взаимодействия

Это первый практический шаг к по-настоящему естественному диалогу между человеком и ИИ. Вместо ожидания очередного ответа вы сможете перебивать, уточнять, спорить — взаимодействовать как с реальным консультантом. Для компаний это означает новые возможности для создания ассистентов, которые кажутся живыми, а не холодными и отстранёнными.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…