MarkTechPost→ оригинал

Tencent открыла Covo-Audio — 7B-модель для голосовых диалогов и аудио-рассуждений

Tencent AI Lab открыла исходники Covo-Audio — 7B Large Audio Language Model для голосовых диалогов в реальном времени. Модель принимает непрерывный аудиопоток и

Tencent открыла Covo-Audio — 7B-модель для голосовых диалогов и аудио-рассуждений
Источник: MarkTechPost. Коллаж: Hamidun News.

Tencent AI Lab открыла исходники Covo-Audio — 7B-модели класса Large Audio Language Model, рассчитанной на голосовые диалоги в реальном времени. Разработка объединяет обработку речи и языковое понимание в одной end-to-end архитектуре: система принимает непрерывный аудиопоток и возвращает ответ тоже в аудиоформате.

Что выпустила

Tencent Главное в релизе Covo-Audio — это не просто новая модель с семью миллиардами параметров, а попытка собрать голосовой интеллект в одном контуре. Вместо привычной цепочки из распознавания речи, текстовой модели и синтеза речи Tencent предлагает end-to-end подход, где непрерывное аудио обрабатывается внутри единой системы. Такой формат нужен для более естественных разговоров: меньше промежуточных преобразований, меньше задержек и меньше мест, где теряются интонация, паузы и контекст живой речи.

Вместе с моделью Tencent AI Lab открыла и inference pipeline для работы в real-time сценариях. Это важная часть релиза, потому что сами веса без рабочего контура запуска редко дают быстрый путь к продукту. Здесь акцент сделан именно на практическом использовании: голосовые ассистенты, разговорные интерфейсы, customer support и другие сервисы, где важна не только точность ответа, но и скорость реакции.

Для open-source экосистемы это полезнее, чем публикация одной только исследовательской демки.

Как устроен подход В описании

Covo-Audio Tencent говорит о четырех основных компонентах архитектуры, которые нужны для бесшовного взаимодействия между аудио и языковой логикой. Идея в том, чтобы модель не просто превращала звук в текст, а работала с речевым сигналом как с полноценным носителем смысла. Это важно для задач, где значение передается не только словами, но и темпом, паузами, ударениями или общей структурой диалога.

По сути, Covo-Audio движется к формату, где анализ речи, рассуждение и генерация ответа становятся частями одного процесса. Это не гарантирует автоматического превосходства над классическими каскадами, но меняет инженерный компромисс. Командам не нужно так жестко склеивать отдельные ASR, LLM и TTS-модули, а значит можно быстрее экспериментировать с новыми голосовыми продуктами и проверять, насколько единая аудиомодель ведет себя лучше в реальном диалоге.

7 миллиардов параметров в одной модели End-to-end обработка аудиовхода и аудиовыхода Работа с непрерывной речью, а не только с дискретными фрагментами Фокус на real-time разговорах и reasoning-задачах * Публикация не только модели, но и inference pipeline ## Где практический смысл Для разработчиков голосовых интерфейсов релиз интересен сразу по нескольким причинам. Во-первых, open-source модель такого класса можно изучать, дообучать и встраивать в собственные пайплайны без ожидания закрытого API. Во-вторых, рынок явно движется к системам, которые умеют разговаривать напрямую, без лишнего текстового слоя между пользователем и ответом.

Это особенно важно там, где задержка ощущается буквально на слух: в помощниках, голосовых ботах, переводчиках и сервисах поддержки. Отдельно важен фокус на reasoning. Многие аудиосистемы уже неплохо распознают речь и синтезируют голос, но сложнее дело обстоит с удержанием контекста и осмысленной реакцией в живом разговоре.

Если Covo-Audio действительно совмещает аудиовосприятие и языковое рассуждение в одной архитектуре, это делает ее заметной не только как исследовательский релиз, но и как ориентир для следующего поколения разговорных AI-систем. Даже без заявлений о немедленной массовой интеграции сам вектор развития здесь понятен.

Что это значит

Tencent показывает, что конкуренция в голосовом AI смещается от простых связок «распознал текст — сгенерировал текст — озвучил» к нативным аудиомоделям, которые слушают и отвечают в одном потоке. Для команд, строящих голосовых агентов, это сигнал смотреть не только на качество распознавания, но и на задержку, естественность диалога и способность модели рассуждать прямо внутри аудиоканала.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…