StepFun apresenta Step 3.7 Flash em GPU NVIDIA para trabalho multimodal

Q: Qual é a fonte?

Publicado originalmente em NVIDIA Developer Blog. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

29 de mai. de 2026. Tempo de leitura: 3 min.

StepFun lançou Step 3.7 Flash em GPU NVIDIA — um modelo multimodal com 198 bilhões de parâmetros. Processa texto, imagens, vídeo e documentos em tempo real…

Redação da Hamidun News

Monitoramento de AI · NVIDIA Developer Blog

29 de mai. de 2026· 2 min

Processado por IA de NVIDIA Developer Blog; editado por Hamidun News

StepFun apresenta Step 3.7 Flash em GPU NVIDIA para trabalho multimodal — Fonte: NVIDIA Developer Blog. Colagem: Hamidun News.

◐ Ouvir artigo

StepFun apresentou Step 3.7 Flash — um modelo de IA multimodal capaz de analisar simultaneamente textos, imagens, vídeos e documentos. O modelo já está disponível em aceleradores NVIDIA e é destinado para aplicações corporativas em escala.

O que é Step 3.7 Flash

Step 3.7 Flash é um modelo de linguagem com 198 bilhões de parâmetros com suporte a multimodalidade. Diferentemente dos modelos apenas de texto, ela percebe vários tipos de dados de entrada simultaneamente: consultas textuais, imagens de alta resolução, sequências de vídeo e digitalizações de documentos. Isso permite que os aplicativos funcionem com cenários de negócios reais, onde as informações chegam em mais de um formato. O modelo foi treinado para processar esses dados em tempo real, sem exigir preparação prévia ou conversão das entradas. A integração com a infraestrutura NVIDIA significa que as empresas podem usar seus clusters de GPU existentes sem migração para novos sistemas.

Capacidades Multimodais

Step 3.7 Flash abrange cenários corporativos-chave:

Busca em conteúdo visual — encontra informações necessárias em arquivos de fotos e vídeos
Análise de documentos — extrai dados de tabelas, contratos, relatórios, recibos
Análise de vídeo — compreende o enredo, extrai detalhes de gravações de câmera ou videoconferências
Consultas híbridas — responde perguntas que exigem correlação de informações de diferentes fontes

Esta abordagem é útil para escritórios de advocacia (análise de contratos e correspondência), manufatura (controle de qualidade por vídeo), medicina (análise de imagens e relatórios), finanças (processamento de múltiplos documentos).

Escalabilidade e Desempenho

StepFun enfatiza que Step 3.7 Flash não é um projeto de pesquisa, mas uma solução pronta para produção. O modelo é otimizado para GPU NVIDIA, incluindo arquiteturas novas. Isso significa latência previsível, suporte a processamento em lote para sistemas de alta carga e compatibilidade garantida com infraestrutura corporativa. A disponibilidade em aceleradores NVIDIA é crítica para empresas que já investiram em clusters de GPU. Eles podem adicionar multimodalidade aos aplicativos existentes sem retreinar engenheiros ou reescrever pipelines.

O Que Isso Significa

A transição da IA da análise textual para multimodalidade completa não é apenas uma adição de recursos, é uma mudança de paradigma. Quando o modelo vê a tela como um humano (texto + imagem + vídeo simultaneamente), novos aplicativos se tornam possíveis: RPA inteligente, análise de grandes volumes de dados não estruturados, automação de trabalho com documentos em um nível que antes exigia pessoas. Step 3.7 Flash mostra que esse nível agora está disponível em forma pronta para produção em hardware padrão.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis