StepFun apresenta Step 3.7 Flash em GPU NVIDIA para trabalho multimodal
StepFun lançou Step 3.7 Flash em GPU NVIDIA — um modelo multimodal com 198 bilhões de parâmetros. Processa texto, imagens, vídeo e documentos em tempo real…
Processado por IA de NVIDIA Developer Blog; editado por Hamidun News
StepFun apresentou Step 3.7 Flash — um modelo de IA multimodal capaz de analisar simultaneamente textos, imagens, vídeos e documentos. O modelo já está disponível em aceleradores NVIDIA e é destinado para aplicações corporativas em escala.
O que é Step 3.7 Flash
Step 3.7 Flash é um modelo de linguagem com 198 bilhões de parâmetros com suporte a multimodalidade. Diferentemente dos modelos apenas de texto, ela percebe vários tipos de dados de entrada simultaneamente: consultas textuais, imagens de alta resolução, sequências de vídeo e digitalizações de documentos. Isso permite que os aplicativos funcionem com cenários de negócios reais, onde as informações chegam em mais de um formato. O modelo foi treinado para processar esses dados em tempo real, sem exigir preparação prévia ou conversão das entradas. A integração com a infraestrutura NVIDIA significa que as empresas podem usar seus clusters de GPU existentes sem migração para novos sistemas.
Capacidades Multimodais
Step 3.7 Flash abrange cenários corporativos-chave:
- Busca em conteúdo visual — encontra informações necessárias em arquivos de fotos e vídeos
- Análise de documentos — extrai dados de tabelas, contratos, relatórios, recibos
- Análise de vídeo — compreende o enredo, extrai detalhes de gravações de câmera ou videoconferências
- Consultas híbridas — responde perguntas que exigem correlação de informações de diferentes fontes
Esta abordagem é útil para escritórios de advocacia (análise de contratos e correspondência), manufatura (controle de qualidade por vídeo), medicina (análise de imagens e relatórios), finanças (processamento de múltiplos documentos).
Escalabilidade e Desempenho
StepFun enfatiza que Step 3.7 Flash não é um projeto de pesquisa, mas uma solução pronta para produção. O modelo é otimizado para GPU NVIDIA, incluindo arquiteturas novas. Isso significa latência previsível, suporte a processamento em lote para sistemas de alta carga e compatibilidade garantida com infraestrutura corporativa. A disponibilidade em aceleradores NVIDIA é crítica para empresas que já investiram em clusters de GPU. Eles podem adicionar multimodalidade aos aplicativos existentes sem retreinar engenheiros ou reescrever pipelines.
O Que Isso Significa
A transição da IA da análise textual para multimodalidade completa não é apenas uma adição de recursos, é uma mudança de paradigma. Quando o modelo vê a tela como um humano (texto + imagem + vídeo simultaneamente), novos aplicativos se tornam possíveis: RPA inteligente, análise de grandes volumes de dados não estruturados, automação de trabalho com documentos em um nível que antes exigia pessoas. Step 3.7 Flash mostra que esse nível agora está disponível em forma pronta para produção em hardware padrão.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.