Jiqizhixin (机器之心)→ original

SenseNova-MARS : SenseTime ouvre le code pour apprendre à l'IA à voir et penser en même temps

Alors qu'OpenAI et Google rivalisent pour savoir qui restreint le plus l'accès à leurs principaux développements, le géant technologique chinois SenseTime a…

Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
SenseNova-MARS : SenseTime ouvre le code pour apprendre à l'IA à voir et penser en même temps
Source : Jiqizhixin (机器之心). Collage: Hamidun News.
◐ Écouter l'article

Alors qu'OpenAI et Google rivalisent pour savoir qui restreint le plus l'accès à leurs principaux développements, le géant technologique chinois SenseTime a décidé de prendre un chemin différent. L'entreprise a rendu open-source son système SenseNova-MARS, affirmant avoir dépassé le « plafond » dans le domaine de la recherche multimodale et du raisonnement logique. Ce n'est pas simplement un autre moteur de recherche d'images, mais une tentative sérieuse d'apprendre aux réseaux de neurones à comprendre le monde de manière aussi holistique que le font les humains.

Pour comprendre l'ampleur de cet événement, il faut se rappeler le contexte. SenseTime développe depuis longtemps sa ligne de modèles SenseNova, mais c'est précisément MARS (Multimodal Analysis and Retrieval System) qui devient le pont entre la simple reconnaissance d'objets et l'analyse complexe. Auparavant, l'IA pouvait dire : « Dans cette vidéo, une personne traverse la route.

» Maintenant, MARS est capable d'expliquer pourquoi cette action peut être dangereuse dans une situation spécifique, en s'appuyant sur les règles de circulation et la vitesse des véhicules. C'est exactement le type de raisonnement multimodal que tous les laboratoires du monde recherchent en ce moment.

Qu'est-ce qui a exactement changé ? SenseTime a mis en œuvre une architecture qui permet au modèle non seulement de mettre en correspondance les requêtes textuelles avec les caractéristiques visuelles, mais aussi de construire des chaînes logiques. Cela résout le principal problème des systèmes multimodaux modernes : leur superficialité. MARS fonctionne avec les vidéos et les images au niveau des significations, pas seulement des pixels. Si vous recherchez un moment spécifique dans une énorme archive d'enregistrements, le système le trouvera non par mot-clé, mais par la description d'une situation qui nécessite une compréhension contextuelle.

Pourquoi est-ce important maintenant ? Le marché de l'IA chinois subit une pression énorme du fait des sanctions et de la concurrence interne avec Alibaba et Baidu. Dans ces conditions, l'open-source devient une arme puissante. En donnant MARS à la communauté, SenseTime engage effectivement des milliers de développeurs dans le monde entier pour tester gratuitement et améliorer sa technologie. C'est un mouvement classique : si vous ne pouvez pas gagner dans une course de puissance fermée, menez un mouvement ouvert.

Pour l'industrie, c'est un signal indiquant que l'ère des simples chatbots est définitivement révolue. L'avenir appartient aux systèmes qui « voient » et « comprennent » simultanément. Si auparavant, créer une recherche vidéo avancée nécessitait des millions de dollars en développement d'algorithmes propriétaires, maintenant la barrière à l'entrée a chuté de façon spectaculaire. MARS fournit les outils pour créer des systèmes de sécurité de nouvelle génération, des archives intelligentes et des systèmes de surveillance avancés qui non seulement regardent, mais analysent ce qui se passe en temps réel.

Il est intéressant de voir comment les entreprises occidentales réagiront à cela. Nous voyons que la nature fermée de GPT-4o ou de Gemini 1.5 Pro commence à irriter les développeurs qui ont besoin de flexibilité et de la capacité à affiner les tâches spécifiques. SenseTime leur en offre la possibilité. Bien sûr, la question de la qualité se pose face au manque de puces les plus puissantes en Chine, mais les solutions architecturales de MARS semblent extrêmement convaincantes.

L'essentiel : SenseTime parie sur la massification et l'ouverture. MARS deviendra-t-il la norme pour les systèmes multimodaux, ou s'agit-il simplement d'une tentative de sauver la face en période d'isolement technologique ? Nous verrons la réponse dans les mois à venir, lorsque les premiers forks et solutions tierces basées sur ce modèle apparaîtront.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…