Qwen, Gemma, Phi-4: cinco modelos omni de código abierto para todo tipo de datos

Cinco modelos abiertos de AI que procesan texto, audio, imágenes y video en una sola interfaz, sin nube ni pipelines separados. Qwen2.5-Omni de Alibaba…

Redacción de Hamidun News

Monitoreo de AI · KDnuggets

29 jun 2026· 2 min

Procesado por IA desde KDnuggets; editado por Hamidun News

Qwen, Gemma, Phi-4: cinco modelos omni de código abierto para todo tipo de datos — Fuente: KDnuggets. Collage: Hamidun News.

◐ Escuchar artículo

Los modelos omni-modales de código abierto — sistemas capaces de procesar simultáneamente texto, imágenes, audio y vídeo — han salido de la fase experimental. Cinco proyectos ya se ejecutan localmente y son adecuados para implementación en producción.

Por qué omni, no pipeline

Un stack de IA clásico funciona como un pipeline: Whisper transcribe el audio, un modelo de lenguaje analiza el texto, un modelo separado procesa imágenes. Los modelos omni-modales funcionan de forma diferente — un único codificador aceita cualquier tipo de dato de entrada, un único decodificador produce la salida. Esto reduce la complejidad arquitectónica y mejora la comprensión del contexto: el modelo ve una imagen y escucha una pregunta simultáneamente, no secuencialmente.

Cinco modelos que funcionan ahora

Qwen2.5-Omni de Alibaba Research — el proyecto más maduro de los cinco. Acepta texto, audio, imágenes y vídeo; responde con texto y voz sintetizada. La latencia de interacción de voz está por debajo de 500 ms. Disponible en tamaños de 3B a 72B parámetros, la licencia permite uso comercial.

InternVL3 de OpenGVLab — enfoque en la comprensión de imágenes, clips de vídeo y documentos. Extrae datos estructurados de tablas, formularios y PDFs con más precisión que la mayoría de sistemas OCR especializados. Soporta más de 20 idiomas, incluyendo cirílico.

Gemma 3n de Google — modelo multimodal optimizado para dispositivos edge. Con 4B parámetros, utiliza menos de 3 GB de memoria y se ejecuta en teléfonos. Procesa texto e imágenes; audio a través de un adaptador separado.

Phi-4 Multimodal de Microsoft — énfasis en el razonamiento sobre imágenes y texto. Maneja bien diagramas científicos, fórmulas matemáticas y esquemas. Adecuado para aplicaciones técnicas y educativas.

MiniCPM-o 2.6 de ModelBest — modelo compacto any-to-any con 8B parámetros con soporte para procesamiento de streaming. Bueno para chatbots de voz con baja latencia. Resumen de capacidades:

Qwen2.5-Omni — any-to-any completo incluyendo generación de voz, 3B–72B
InternVL3 — mejor en OCR e inteligencia de documentos, hasta 78B
Gemma 3n — más compacto, optimizado para dispositivos móviles
Phi-4 Multimodal — razonamiento fuerte sobre imágenes y diagramas
MiniCPM-o 2.6 — procesamiento de streaming, bueno para asistentes en tiempo real

Cómo elegir según tu tarea

Para un asistente de voz con baja latencia — Qwen2.5-Omni o MiniCPM-o. Para análisis de documentos y formularios — InternVL3. Para ejecutarse en hardware débil o dispositivos móviles — Gemma 3n. Para aplicaciones técnicas con diagramas — Phi-4. Durante las pruebas, verifique si el modelo admite entrada de audio de streaming, cómo se comporta OCR en texto manuscrito y fuentes no estándar, cuánta VRAM se requiere y si es posible la inferencia de CPU. Por separado, licencia: Apache 2.0 permite uso comercial sin restricciones, Gemma requiere un acuerdo separado con Google.

Qué significa esto

Los modelos omni-modales de código abierto están haciendo la transición de puntos de referencia académicos al despliegue en el mundo real. Las empresas que construyeron pipelines complejos a partir de varios modelos especializados ahora pueden reemplazarlos con uno — con menor sobrecarga y una comprensión de contexto más holística. Para productos con voz, imágenes y documentos, esto cambia la arquitectura de basada en pipeline a monolítica.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita