Google Gemini 3 Deep Think : nouveau record dans les tests d’intelligence générale
Google a annoncé une mise à jour de Gemini 3 Deep Think, axée sur la science et l’ingénierie. La principale avancée est un score de 84,6 % sur le benchmark…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Google franchit une nouvelle frontière dans le développement de l'intelligence artificielle. L'entreprise a annoncé une mise à jour de Gemini 3 Deep Think, qui obtient un score de 84,6% sur le benchmark ARC-AGI-2 — un test que les scientifiques considèrent comme la dernière barrière sérieuse avant d'atteindre l'intelligence générale. Ce n'est pas simplement une amélioration supplémentaire du modèle, mais un changement fondamental dans la façon dont les réseaux de neurones artificiels résolvent les problèmes complexes. Au lieu de générer simplement du texte, le système utilise désormais un mode de raisonnement profond avec vérification interne, permettant à la machine de vérifier sa propre logique en temps réel.
Pour comprendre l'importance de cette étape, il est utile de se rappeler ce qui s'est passé dans l'industrie au cours des dernières années. Les grands modèles de langage comme GPT et Claude excellent dans la génération de texte, mais bute souvent sur les tâches qui nécessitent une inférence logique multi-étapes et une vérification des résultats. ARC-AGI-2 a été spécifiquement conçu par des chercheurs comme un test qui résiste au simple redimensionnement des modèles — c'est un ensemble de tâches de logique et de raisonnement abstrait qui nécessitent un vrai raisonnement, pas seulement la prédiction du mot suivant.
Un score de 84,6% signifie que Gemini 3 Deep Think résout correctement quatre tâches sur cinq de ce type, ce qui était auparavant impossible même pour les systèmes les plus puissants.
Techniquement, ceci est réalisé grâce à un nouveau mécanisme de raisonnement interne. Le modèle ne se précipite plus pour fournir une réponse, mais passe par plusieurs étapes de délibération, en vérifiant chaque étape de la logique avant de formuler la réponse finale. C'est similaire à la façon dont un mathématicien ne se contente pas d'énoncer la réponse, mais résout le problème étape par étape, en vérifiant chaque calcul. Google a intégré au modèle une capacité d'auto-vérification, qui réduit radicalement la probabilité d'erreurs logiques. Cette approche est applicable non seulement aux énigmes abstraites, mais aussi aux véritables tâches scientifiques et d'ingénierie nécessitant une analyse approfondie et une vérification des hypothèses.
C'est précisément pour cette raison que Google positionne cette mise à jour comme un outil pour la science et l'ingénierie, plutôt que pour le divertissement. Le modèle est maintenant capable d'aider les chercheurs à concevoir des systèmes complexes, à vérifier les hypothèses scientifiques et à résoudre les problèmes d'ingénierie qui nécessitent une analyse multi-niveaux. Cela pourrait accélérer le développement de nouveaux matériaux, médicaments, architectures de microprocesseurs et d'autres systèmes complexes, où chaque erreur coûte du temps et de l'argent importants.
Qu'est-ce que cela signifie pour l'avenir de l'AGI — l'intelligence artificielle générale? Un score de 84,6% sur ARC-AGI-2 n'est pas une ligne d'arrivée, mais un signal clair que nous nous dirigeons non pas vers des générateurs de texte de plus en plus puissants, mais vers des systèmes capables d'un vrai raisonnement. C'est un paradigme qui diffère de celui qui a dominé ces dernières années. Le passage de l'échelle à des trillions de paramètres à la mise en œuvre de mécanismes de vérification et de raisonnement étape par étape pourrait être exactement ce qu'il faut pour un progrès futur.
Cependant, nous devons être prudents dans notre formulation. Un score élevé sur un seul benchmark ne signifie pas que l'AGI est déjà là. ARC-AGI-2 teste un type d'intelligence spécifique — le raisonnement logique abstrait. La véritable intelligence générale nécessitera des succès sur de nombreux autres fronts : la compréhension du contexte, la gestion de l'incertitude, l'adaptation à de nouvelles situations. Néanmoins, la réussite de Google montre que le chemin vers cela devient plus clair. Les modèles apprennent non seulement à générer, mais à penser, vérifier et justifier.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.