KDnuggets→ original

Qwen, Gemma, Phi-4: cinco modelos omni de código abierto para todo tipo de datos

Cinco modelos abiertos de AI que procesan texto, audio, imágenes y video en una sola interfaz, sin nube ni pipelines separados. Qwen2.5-Omni de Alibaba…

Procesado por IA desde KDnuggets; editado por Hamidun News
Qwen, Gemma, Phi-4: cinco modelos omni de código abierto para todo tipo de datos
Fuente: KDnuggets. Collage: Hamidun News.
◐ Escuchar artículo

Los modelos omni-modales de código abierto — sistemas capaces de procesar simultáneamente texto, imágenes, audio y vídeo — han salido de la fase experimental. Cinco proyectos ya se ejecutan localmente y son adecuados para implementación en producción.

Por qué omni, no pipeline

Un stack de IA clásico funciona como un pipeline: Whisper transcribe el audio, un modelo de lenguaje analiza el texto, un modelo separado procesa imágenes. Los modelos omni-modales funcionan de forma diferente — un único codificador aceita cualquier tipo de dato de entrada, un único decodificador produce la salida. Esto reduce la complejidad arquitectónica y mejora la comprensión del contexto: el modelo ve una imagen y escucha una pregunta simultáneamente, no secuencialmente.

Cinco modelos que funcionan ahora

Qwen2.5-Omni de Alibaba Research — el proyecto más maduro de los cinco. Acepta texto, audio, imágenes y vídeo; responde con texto y voz sintetizada. La latencia de interacción de voz está por debajo de 500 ms. Disponible en tamaños de 3B a 72B parámetros, la licencia permite uso comercial.

InternVL3 de OpenGVLab — enfoque en la comprensión de imágenes, clips de vídeo y documentos. Extrae datos estructurados de tablas, formularios y PDFs con más precisión que la mayoría de sistemas OCR especializados. Soporta más de 20 idiomas, incluyendo cirílico.

Gemma 3n de Google — modelo multimodal optimizado para dispositivos edge. Con 4B parámetros, utiliza menos de 3 GB de memoria y se ejecuta en teléfonos. Procesa texto e imágenes; audio a través de un adaptador separado.

Phi-4 Multimodal de Microsoft — énfasis en el razonamiento sobre imágenes y texto. Maneja bien diagramas científicos, fórmulas matemáticas y esquemas. Adecuado para aplicaciones técnicas y educativas.

MiniCPM-o 2.6 de ModelBest — modelo compacto any-to-any con 8B parámetros con soporte para procesamiento de streaming. Bueno para chatbots de voz con baja latencia. Resumen de capacidades:

  • Qwen2.5-Omni — any-to-any completo incluyendo generación de voz, 3B–72B
  • InternVL3 — mejor en OCR e inteligencia de documentos, hasta 78B
  • Gemma 3n — más compacto, optimizado para dispositivos móviles
  • Phi-4 Multimodal — razonamiento fuerte sobre imágenes y diagramas
  • MiniCPM-o 2.6 — procesamiento de streaming, bueno para asistentes en tiempo real

Cómo elegir según tu tarea

Para un asistente de voz con baja latencia — Qwen2.5-Omni o MiniCPM-o. Para análisis de documentos y formularios — InternVL3. Para ejecutarse en hardware débil o dispositivos móviles — Gemma 3n. Para aplicaciones técnicas con diagramas — Phi-4. Durante las pruebas, verifique si el modelo admite entrada de audio de streaming, cómo se comporta OCR en texto manuscrito y fuentes no estándar, cuánta VRAM se requiere y si es posible la inferencia de CPU. Por separado, licencia: Apache 2.0 permite uso comercial sin restricciones, Gemma requiere un acuerdo separado con Google.

Qué significa esto

Los modelos omni-modales de código abierto están haciendo la transición de puntos de referencia académicos al despliegue en el mundo real. Las empresas que construyeron pipelines complejos a partir de varios modelos especializados ahora pueden reemplazarlos con uno — con menor sobrecarga y una comprensión de contexto más holística. Para productos con voz, imágenes y documentos, esto cambia la arquitectura de basada en pipeline a monolítica.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…