StepFun presentó Step 3.7 Flash en GPU NVIDIA para trabajo multimodal

Q: ¿Cuál es la fuente?

Publicado originalmente en NVIDIA Developer Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

29 may 2026. Tiempo de lectura: 3 min.

StepFun lanzó Step 3.7 Flash en GPU NVIDIA — un modelo multimodal con 198 mil millones de parámetros. Procesa texto, imágenes, vídeo y documentos en tiempo…

Redacción de Hamidun News

Monitoreo de AI · NVIDIA Developer Blog

29 may 2026· 2 min

Procesado por IA desde NVIDIA Developer Blog; editado por Hamidun News

StepFun presentó Step 3.7 Flash en GPU NVIDIA para trabajo multimodal — Fuente: NVIDIA Developer Blog. Collage: Hamidun News.

◐ Escuchar artículo

StepFun presentó Step 3.7 Flash — un modelo de IA multimodal capaz de analizar simultáneamente textos, imágenes, vídeos y documentos. El modelo ya está disponible en aceleradores NVIDIA y está diseñado para aplicaciones empresariales a escala.

Qué es Step 3.7 Flash

Step 3.7 Flash es un modelo de lenguaje con 198 mil millones de parámetros con soporte multimodal. A diferencia de los modelos de texto, percibe múltiples tipos de datos de entrada simultáneamente: consultas de texto, imágenes de alta resolución, secuencias de vídeo y escaneos de documentos. Esto permite que las aplicaciones funcionen con escenarios empresariales reales donde la información llega en múltiples formatos. El modelo está entrenado para procesar estos datos en tiempo real, sin requerir preparación previa o conversión de entradas. La integración con infraestructura NVIDIA significa que las empresas pueden usar sus clústeres de GPU existentes sin migrar a nuevos sistemas.

Capacidades multimodales

Step 3.7 Flash cubre escenarios empresariales clave:

Búsqueda por contenido visual — encuentra información requerida en archivos de fotos y vídeos
Análisis de documentos — extrae datos de tablas, contratos, reportes, recibos
Análisis de vídeo — entiende la trama, extrae detalles de grabaciones de cámaras o videoconferencias
Consultas híbridas — responde preguntas que requieren correlacionar información de múltiples fuentes

Este enfoque es útil para firmas legales (análisis de contratos y correspondencia), manufactura (control de calidad por vídeo), medicina (análisis de imágenes y reportes), finanzas (procesamiento de múltiples documentos).

Escalado y rendimiento

StepFun enfatiza que Step 3.7 Flash no es un proyecto de investigación, sino una solución lista para producción. El modelo está optimizado para GPU NVIDIA, incluyendo arquitecturas nuevas. Esto significa latencia predecible, soporte para procesamiento por lotes en sistemas de alta carga y compatibilidad garantizada con infraestructura empresarial. La disponibilidad en aceleradores NVIDIA es crítica para empresas que ya han invertido en clústeres de GPU. Pueden agregar capacidades multimodales a aplicaciones existentes sin reentrenar ingenieros o reescribir pipelines.

Qué significa esto

El paso de la IA del análisis de texto a la multimodalidad completa no es simplemente agregar características, es un cambio de paradigma. Cuando un modelo ve la pantalla como una persona (texto + imagen + vídeo simultáneamente), nuevas aplicaciones se vuelven posibles: RPA inteligente, análisis de grandes volúmenes de datos no estructurados, automatización del trabajo con documentos a un nivel que antes requería personas. Step 3.7 Flash demuestra que este nivel ahora está disponible en forma lista para producción en hardware estándar.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita