StepFun présente Step 3.7 Flash sur GPU NVIDIA pour le travail multimodal
StepFun a lancé Step 3.7 Flash sur GPU NVIDIA — un modèle multimodal avec 198 milliards de paramètres. Il traite le texte, les images, la vidéo et les…
Traité par IA depuis NVIDIA Developer Blog ; édité par Hamidun News
StepFun a présenté Step 3.7 Flash — un modèle d'IA multimodal capable d'analyser simultanément des textes, des images, des vidéos et des documents. Le modèle est déjà disponible sur les accélérateurs NVIDIA et est conçu pour les applications d'entreprise à grande échelle.
Qu'est-ce que Step 3.7 Flash ?
Step 3.7 Flash est un modèle linguistique de 198 milliards de paramètres avec support multimodal. Contrairement aux modèles textuels, il traite plusieurs types de données d'entrée simultanément : les requêtes textuelles, les images haute résolution, les séquences vidéo et les scans de documents. Cela permet aux applications de fonctionner avec des scénarios d'affaires réels, où les informations arrivent sous plusieurs formats. Le modèle est entraîné pour traiter ces données en temps réel, sans nécessiter de préparation préalable ou de conversion des entrées. L'intégration avec l'infrastructure NVIDIA signifie que les entreprises peuvent utiliser les clusters GPU existants sans migration vers de nouveaux systèmes.
Capacités multimodales
Step 3.7 Flash couvre les scénarios d'entreprise clés :
- Recherche par contenu visuel — trouve les informations nécessaires dans les archives de photos et vidéos
- Analyse de documents — extrait les données des tableaux, contrats, rapports, reçus
- Analyse vidéo — comprend l'intrigue, extrait les détails des enregistrements de caméras ou des vidéoconférences
- Requêtes hybrides — répond aux questions nécessitant le rapprochement d'informations provenant de sources différentes
Cette approche est utile pour les cabinets juridiques (analyse de contrats et correspondance), la fabrication (contrôle de qualité par vidéo), la médecine (analyse d'images et de rapports), la finance (traitement de plusieurs documents).
Scalabilité et performance
StepFun souligne que Step 3.7 Flash n'est pas un projet de recherche, mais une solution prête pour la production. Le modèle est optimisé pour les GPU NVIDIA, y compris les nouvelles architectures. Cela signifie une latence prévisible, une prise en charge du traitement par lots pour les systèmes hautement chargés et une compatibilité garantie avec l'infrastructure d'entreprise. La disponibilité sur les accélérateurs NVIDIA est essentielle pour les entreprises qui ont déjà investi dans des clusters GPU. Elles peuvent ajouter la multimodalité aux applications existantes sans recyclage des ingénieurs ni réécriture des pipelines.
Ce que cela signifie
La transition de l'IA de l'analyse textuelle à la multimodalité complète n'est pas simplement l'ajout de fonctionnalités, c'est un changement de paradigme. Lorsque le modèle voit l'écran comme une personne (texte + image + vidéo simultanément), de nouvelles applications deviennent possibles : l'automatisation intelligente des processus (RPA), l'analyse de grands volumes de données non structurées, l'automatisation du traitement des documents à un niveau qui auparavant nécessitait des personnes. Step 3.7 Flash montre que ce niveau est désormais disponible en version prête pour la production sur du matériel standard.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.