StepFun presentó Step 3.7 Flash en GPU NVIDIA para trabajo multimodal
StepFun lanzó Step 3.7 Flash en GPU NVIDIA — un modelo multimodal con 198 mil millones de parámetros. Procesa texto, imágenes, vídeo y documentos en tiempo…
Procesado por IA desde NVIDIA Developer Blog; editado por Hamidun News
StepFun presentó Step 3.7 Flash — un modelo de IA multimodal capaz de analizar simultáneamente textos, imágenes, vídeos y documentos. El modelo ya está disponible en aceleradores NVIDIA y está diseñado para aplicaciones empresariales a escala.
Qué es Step 3.7 Flash
Step 3.7 Flash es un modelo de lenguaje con 198 mil millones de parámetros con soporte multimodal. A diferencia de los modelos de texto, percibe múltiples tipos de datos de entrada simultáneamente: consultas de texto, imágenes de alta resolución, secuencias de vídeo y escaneos de documentos. Esto permite que las aplicaciones funcionen con escenarios empresariales reales donde la información llega en múltiples formatos. El modelo está entrenado para procesar estos datos en tiempo real, sin requerir preparación previa o conversión de entradas. La integración con infraestructura NVIDIA significa que las empresas pueden usar sus clústeres de GPU existentes sin migrar a nuevos sistemas.
Capacidades multimodales
Step 3.7 Flash cubre escenarios empresariales clave:
- Búsqueda por contenido visual — encuentra información requerida en archivos de fotos y vídeos
- Análisis de documentos — extrae datos de tablas, contratos, reportes, recibos
- Análisis de vídeo — entiende la trama, extrae detalles de grabaciones de cámaras o videoconferencias
- Consultas híbridas — responde preguntas que requieren correlacionar información de múltiples fuentes
Este enfoque es útil para firmas legales (análisis de contratos y correspondencia), manufactura (control de calidad por vídeo), medicina (análisis de imágenes y reportes), finanzas (procesamiento de múltiples documentos).
Escalado y rendimiento
StepFun enfatiza que Step 3.7 Flash no es un proyecto de investigación, sino una solución lista para producción. El modelo está optimizado para GPU NVIDIA, incluyendo arquitecturas nuevas. Esto significa latencia predecible, soporte para procesamiento por lotes en sistemas de alta carga y compatibilidad garantizada con infraestructura empresarial. La disponibilidad en aceleradores NVIDIA es crítica para empresas que ya han invertido en clústeres de GPU. Pueden agregar capacidades multimodales a aplicaciones existentes sin reentrenar ingenieros o reescribir pipelines.
Qué significa esto
El paso de la IA del análisis de texto a la multimodalidad completa no es simplemente agregar características, es un cambio de paradigma. Cuando un modelo ve la pantalla como una persona (texto + imagen + vídeo simultáneamente), nuevas aplicaciones se vuelven posibles: RPA inteligente, análisis de grandes volúmenes de datos no estructurados, automatización del trabajo con documentos a un nivel que antes requería personas. Step 3.7 Flash demuestra que este nivel ahora está disponible en forma lista para producción en hardware estándar.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.