Alibaba lanza Qwen3.5-Omni — modelo multimodal nativo para texto, audio y vídeo
Alibaba ha mostrado Qwen3.5-Omni — un nuevo modelo omnimodal que funciona con texto, imágenes, audio y vídeo sin unir módulos separados. La serie incluye…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Alibaba presentó Qwen3.5-Omni — un modelo omnimediático nativo que entiende texto, imágenes, audio y vídeo en una única arquitectura y puede responder con voz en tiempo real.
Cómo está estructurado el modelo
La idea principal detrás de Qwen3.5-Omni es que no se trata de un conjunto de modelos separados conectados sobre un núcleo de texto, sino de un sistema unificado diseñado desde el principio para múltiples tipos de datos. Alibaba contrasta este enfoque con el formato multimodal antiguo, donde visión o sonido simplemente se "injertaban" en un LLM a través de codificadores externos. Para los desarrolladores, la diferencia importa: la arquitectura nativa típicamente mantiene mejor contexto entre canales, conecta más precisamente habla con imágenes y escala más fácilmente para escenarios del mundo real como llamadas, análisis de vídeo y asistentes de voz.
En el informe técnico, Qwen3.5-Omni se describe como un modelo omnimediático con arquitectura Hybrid Attention Mixture-of-Experts para dos circuitos — Thinker y Talker. El primero es responsable de la comprensión y el razonamiento, el segundo de las respuestas de voz en streaming. Qwen afirma que el modelo se entrenó en pares texto-imagen heterogéneos y más de 100 millones de horas de datos audiovisuales. La ventana de contexto anunciada es de 256 mil tokens, lo que significa que una única sesión puede incluir conversaciones muy largas, grabaciones de reuniones, conferencias, capturas de pantalla y clips de vídeo sin dividirse en docenas de pequeñas solicitudes.
La serie viene en varias variantes: Plus, Flash y Light. Esto sugiere una lógica familiar de línea de productos — máxima calidad para tareas complejas, modo rápido para escenarios interactivos y una versión más ligera para ahorrar computación. Alibaba enfatiza por separado la operación en tiempo real: Qwen3.5-Omni puede transmitir respuestas en texto y habla natural, y el mecanismo ARIA es responsable de una generación de voz más estable y suave, que alinea dinámicamente unidades de texto y habla.
Principales capacidades de la versión
Según el informe técnico, Qwen3.5-Omni-Plus muestra los mejores resultados en 215 tareas y benchmarks relacionados con comprensión de audio y audiovisual, razonamiento e interacción. Qwen señala por separado que el modelo supera a Gemini 3.1 Pro en tareas de audio clave y se encuentra en un nivel comparable en comprensión audiovisual integral. Para Alibaba, esta es una señal importante al mercado: la competencia en el segmento de modelos multimodales potentes ya no se limita a OpenAI y Google, y los laboratorios chinos reclaman liderazgo precisamente en los modos más complejos — voz, vídeo y diálogo en vivo.
- Ventana de contexto de 256k
- Más de 10 horas de audio en una sesión
- Más de 400 segundos de vídeo 720p a 1 FPS
- Variantes Plus, Flash y Light
- Leyendas estructuradas con escenas y timestamps
Otra parte sólida del lanzamiento es trabajar con descripciones de audio y vídeo. El informe discute leyendas estructuradas a nivel de escena: el modelo puede construir descripciones detalladas con sincronización temporal precisa y segmentación automática de escenas. Esto es útil no solo para archivos de medios, sino también para búsqueda de vídeo, análisis de llamadas, capacitación, escenarios de accesibilidad y control de calidad de contenido.
En esencia, Alibaba está empujando Qwen3.5-Omni hacia una capa de comprensión universal para cualquier formato de medios, en lugar de simplemente un "chatbot que también escucha". Por separado, los investigadores señalan la aparición de una nueva capacidad llamada Audio-Visual Vibe Coding.
Esto implica codificación directa a partir de instrucciones audiovisuales: el modelo puede interpretar no solo una solicitud de texto, sino también una explicación de voz junto con contexto visual. Por ahora, esto es más una señal de investigación que un producto de mercado masivo listo, pero la dirección es reveladora. Si tales modos se consolidaran, un desarrollador podría evitar reescribir manualmente un informe de errores en texto y simplemente mostrar la interfaz, describir el problema verbalmente y obtener un borrador de solución funcional.
Lo que esto significa
Qwen3.5-Omni muestra que la siguiente etapa de la carrera de IA no es sobre otro chatbot de texto, sino sobre modelos que funcionan igualmente con confianza con sonido, imágenes, vídeo y habla en un único flujo. Para los negocios, esto abre el camino a productos más cohesivos: agentes de voz, análisis de reuniones, búsqueda de medios e interfaces que entienden no solo texto, sino todo lo que el usuario muestra y dice.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.