MarkTechPost→ оригинал

OpenMOSS lanza MOSS-Audio — modelo de audio abierto que supera alternativas mayores

OpenMOSS lanzó MOSS-Audio — un modelo abierto para la comprensión de voz, música y sonidos ambientes en una única pila. El lanzamiento incluye cuatro versiones

OpenMOSS lanza MOSS-Audio — modelo de audio abierto que supera alternativas mayores
Источник: MarkTechPost. Коллаж: Hamidun News.

OpenMOSS показала редкий для open-source аудио-релиз: MOSS-Audio пытается закрыть сразу весь стек понимания звука в одной модели. Вместо набора отдельных решений для расшифровки речи, анализа эмоций, фоновых шумов, музыки и вопросов по таймкодам команда собрала единую архитектуру, которая, по собственным бенчмаркам проекта, уже обходит все протестированные открытые аналоги — включая системы более чем в четыре раза крупнее. Проект создан OpenMOSS совместно с MOSI.

AI и Shanghai Innovation Institute. В релиз вошли четыре версии: MOSS-Audio-4B-Instruct, MOSS-Audio-4B-Thinking, MOSS-Audio-8B-Instruct и MOSS-Audio-8B-Thinking. Instruct-варианты рассчитаны на прямое выполнение запросов и предсказуемый формат ответа, а Thinking-модели — на более сложный анализ с многошаговым выводом.

В основе лежат Qwen3-4B и Qwen3-8B, а общий размер моделей составляет примерно 4,6 и 8,6 млрд параметров. Главная ставка здесь не только на размер, а на универсальность. MOSS-Audio умеет распознавать речь с пословной и пофразовой привязкой ко времени, определять характеристики спикера и эмоции, извлекать контекст из окружающих звуков, анализировать музыкальный стиль и инструменты, отвечать на вопросы по подкастам, интервью и встречам, а также делать выводы по длинным аудиофрагментам.

Для разработчиков это означает более простой пайплайн: вместо связки ASR, классификатора событий, отдельной музыкальной модели и постобработки по таймкодам можно использовать одну систему. Архитектура состоит из трех частей: собственного аудиоэнкодера, адаптера модальности и языковой модели. Сырой звук сначала превращается в непрерывные временные представления с частотой 12,5 Гц, затем эти признаки проецируются в пространство эмбеддингов LLM, после чего модель генерирует текстовый ответ.

Команда отдельно подчеркивает, что не взяла готовый аудиофронтенд, а обучила энкодер с нуля, чтобы получить более устойчивые представления речи, лучшую временную точность и расширяемость на разные типы звука. Две технические идеи особенно важны. Первая — DeepStack Cross-Layer Feature Injection: модель не ограничивается верхним слоем энкодера, а подмешивает в ранние слои LLM признаки из промежуточных уровней, чтобы не терять просодию, ритм, тембр, краткие акустические события и структуру фона.

Вторая — time-aware representation с явными временными токенами между аудиофреймами во время предобучения. За счет этого система лучше понимает не только что произошло, но и когда именно это случилось, что критично для timestamp ASR, локализации событий и вопросов по временной шкале. По заявленным результатам, MOSS-Audio-8B-Thinking набирает в среднем 71,08 балла на четырех общих аудиобенчмарках: 77,33 на MMAU, 64,92 на MMAU-Pro, 66,53 на MMAR и 75,52 на MMSU.

Это выше, чем у Step-Audio-R1 с 33 млрд параметров, который получил 70,67, и выше, чем у Qwen3-Omni-30B-A3B-Instruct с результатом 67,91. Даже младшая 4B-Thinking версия показала средний балл 68,37 и обошла многие более крупные instruct-only системы. В speech captioning 8B-Instruct лидирует по 11 из 13 категорий и получает среднюю оценку 3,7252, а в ASR показывает лучший суммарный CER 11,30.

Для задач с таймкодами модель выдает AAS 35,77 на AISHELL-1 и 131,61 на LibriSpeech, заметно опережая открытые базовые альтернативы. Главный вывод такой: в open-source аудио начинается сдвиг от узких моделей к универсальным системам, которые понимают речь, музыку и звуковую среду в одном контуре. Если цифры подтвердятся в независимых тестах, MOSS-Audio может стать базовым кирпичом для голосовых ассистентов, аналитики звонков, поиска по медиаархивам и инструментов работы с длинным аудио — особенно там, где нужен контроль над моделью и локальный запуск, а не закрытый API.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…