NVIDIA Developer Blog→ original

StepFun présente Step 3.7 Flash sur GPU NVIDIA pour le travail multimodal

StepFun a lancé Step 3.7 Flash sur GPU NVIDIA — un modèle multimodal avec 198 milliards de paramètres. Il traite le texte, les images, la vidéo et les…

Traité par IA depuis NVIDIA Developer Blog ; édité par Hamidun News
StepFun présente Step 3.7 Flash sur GPU NVIDIA pour le travail multimodal
Source : NVIDIA Developer Blog. Collage: Hamidun News.
◐ Écouter l'article

StepFun a présenté Step 3.7 Flash — un modèle d'IA multimodal capable d'analyser simultanément des textes, des images, des vidéos et des documents. Le modèle est déjà disponible sur les accélérateurs NVIDIA et est conçu pour les applications d'entreprise à grande échelle.

Qu'est-ce que Step 3.7 Flash ?

Step 3.7 Flash est un modèle linguistique de 198 milliards de paramètres avec support multimodal. Contrairement aux modèles textuels, il traite plusieurs types de données d'entrée simultanément : les requêtes textuelles, les images haute résolution, les séquences vidéo et les scans de documents. Cela permet aux applications de fonctionner avec des scénarios d'affaires réels, où les informations arrivent sous plusieurs formats. Le modèle est entraîné pour traiter ces données en temps réel, sans nécessiter de préparation préalable ou de conversion des entrées. L'intégration avec l'infrastructure NVIDIA signifie que les entreprises peuvent utiliser les clusters GPU existants sans migration vers de nouveaux systèmes.

Capacités multimodales

Step 3.7 Flash couvre les scénarios d'entreprise clés :

  • Recherche par contenu visuel — trouve les informations nécessaires dans les archives de photos et vidéos
  • Analyse de documents — extrait les données des tableaux, contrats, rapports, reçus
  • Analyse vidéo — comprend l'intrigue, extrait les détails des enregistrements de caméras ou des vidéoconférences
  • Requêtes hybrides — répond aux questions nécessitant le rapprochement d'informations provenant de sources différentes

Cette approche est utile pour les cabinets juridiques (analyse de contrats et correspondance), la fabrication (contrôle de qualité par vidéo), la médecine (analyse d'images et de rapports), la finance (traitement de plusieurs documents).

Scalabilité et performance

StepFun souligne que Step 3.7 Flash n'est pas un projet de recherche, mais une solution prête pour la production. Le modèle est optimisé pour les GPU NVIDIA, y compris les nouvelles architectures. Cela signifie une latence prévisible, une prise en charge du traitement par lots pour les systèmes hautement chargés et une compatibilité garantie avec l'infrastructure d'entreprise. La disponibilité sur les accélérateurs NVIDIA est essentielle pour les entreprises qui ont déjà investi dans des clusters GPU. Elles peuvent ajouter la multimodalité aux applications existantes sans recyclage des ingénieurs ni réécriture des pipelines.

Ce que cela signifie

La transition de l'IA de l'analyse textuelle à la multimodalité complète n'est pas simplement l'ajout de fonctionnalités, c'est un changement de paradigme. Lorsque le modèle voit l'écran comme une personne (texte + image + vidéo simultanément), de nouvelles applications deviennent possibles : l'automatisation intelligente des processus (RPA), l'analyse de grands volumes de données non structurées, l'automatisation du traitement des documents à un niveau qui auparavant nécessitait des personnes. Step 3.7 Flash montre que ce niveau est désormais disponible en version prête pour la production sur du matériel standard.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…