OpenMOSS lanza MOSS-Audio — modelo de audio abierto que supera alternativas mayores

OpenMOSS lanzó MOSS-Audio — un modelo abierto para la comprensión de voz, música y sonidos ambientes en una única pila. El lanzamiento incluye cuatro versiones de 4B y 8B parámetros, y el modelo estrella 8B-Thinking, según el equipo, superó a todos los modelos open-source probados en benchmarks de audio estándar, incluidos sistemas substancialmente más grandes. El modelo también se destaca por la precisión en el manejo de timestamps y el análisis de audio en múltiples pasos.

Khamidun Zhemal

Monitoreo de AI · MarkTechPost

27 abr 2026· 2 min

Procesado por IA desde MarkTechPost; editado por Hamidun News

OpenMOSS lanza MOSS-Audio — modelo de audio abierto que supera alternativas mayores — Fuente: MarkTechPost. Collage: Hamidun News.

◐ Escuchar artículo

OpenMOSS lanzó MOSS-Audio, un modelo de audio abierto que supera alternativas más grandes.

OpenMOSS ha lanzado un nuevo modelo de audio de fundación de código abierto llamado MOSS-Audio. Este modelo es capaz de resolver múltiples tareas de comprensión de audio utilizando una única arquitectura unificada. Actualmente, la mayoría de la comprensión de audio se maneja mediante modelos separados de propósito específico: uno para reconocimiento de voz, otro para análisis de emoción, un tercero para detección de ruido de fondo, y así sucesivamente. MOSS-Audio adopta un enfoque diferente — combina todas estas capacidades en un único modelo de fundación.

Lo Que Puede Hacer MOSS-Audio

MOSS-Audio maneja una amplia gama de tareas de audio:

Reconocimiento de voz — convertir audio a texto
Análisis de emoción — detectar emoción del hablante
Detección de ruido de fondo y sonido — identificar elementos acústicos
Análisis de música — comprender estilo musical, instrumentos y características
Respuesta a preguntas basadas en timestamp — responder consultas sobre momentos específicos en el audio

Arquitectura del Modelo

La arquitectura consta de tres componentes principales:

1. Codificador de audio — transforma audio sin procesar en representaciones compactas 2. Adaptador de modalidad — conecta el espacio de representación de audio y el modelo de lenguaje 3. Modelo de lenguaje — procesa las representaciones adaptadas y genera respuestas

Innovación

Técnica: Inyección de Características Entre Capas DeepStack

Una innovación clave es la Inyección de Características Entre Capas DeepStack. En lugar de proporcionar representaciones de audio solo en la capa de entrada del modelo de lenguaje, las características intermedias del codificador de audio se inyectan directamente en las primeras capas del modelo de lenguaje. Esto permite que el modelo procese información de audio de manera más efectiva y genere respuestas más precisas.

Representación Consciente del Tiempo

Una característica crítica es la representación consciente del tiempo con tokens temporales explícitos. El audio es fundamentalmente temporal, y MOSS-Audio captura esto mediante:

El uso de tokens temporales explícitos en la representación
Mantener reconocimiento de voz con alineación de tiempo a nivel de palabra y frase
Generar respuestas basadas en timestamp con conciencia temporal
Analizar patrones temporales en música

Las representaciones temporales se calculan a una frecuencia de 12,5 Hz, proporcionando información temporal de grano fino mientras se mantiene la eficiencia computacional.

Resultados de Benchmark

Las evaluaciones de benchmark muestran un desempeño competitivo:

ASR (Reconocimiento de Voz Automático) con CER (Tasa de Error de Caracteres) comparable a modelos especializados
AAS (Puntuación de Alineación de Audio) para precisión de timestamp
Desempeño sólido en tareas de detección de emoción y análisis de música

Modelos Abiertos y Unificados

El lanzamiento de MOSS-Audio refleja una tendencia más amplia en el desarrollo de IA de código abierto: el cambio de múltiples modelos de propósito específico a modelos de fundación universales. Este enfoque es más eficiente, más fácil de mantener y a menudo ofrece un mejor desempeño general que los modelos especializados, especialmente cuando las tareas están relacionadas o requieren razonamiento entre tareas.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 50 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?

Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).

Reservar consulta gratuita →