Anthropic a lancé Opus 4.7, et OpenAI a transformé Codex en agent de travail informatique
Anthropic a positionné Opus 4.7 comme leader dans les tâches agentes complexes et a lancé Claude Design, tandis qu'OpenAI a transformé Codex en agent…
Traité par IA depuis Habr AI ; édité par Hamidun News
Cette semaine a montré que la course de l'IA s'était déplacée à nouveau, des chatbots vers des agents de travail complets. Anthropic a renforcé son modèle phare Opus 4.7 et a immédiatement créé un nouvel outil de conception pour lui, OpenAI a appris à Codex à voir l'écran et à contrôler l'ordinateur, et Google et Baidu ont élargi leur ensemble d'outils pour la voix et les images.
Dans ce contexte, il est particulièrement frappant de voir comment l'IA sort des laboratoires et entre dans le travail quotidien, le marché des logiciels et même la spéculation boursière. Le principal lancement de la semaine est Claude Opus 4.7.
Anthropic appelle le modèle le lancement public le plus fort de l'entreprise à ce jour pour les longs pipelines de code, le raisonnement multietapes et les tâches d'agents. Sur SWE-bench Pro, le résultat est passé de 53,4% à 64,3% par rapport à Opus 4.6.
Le modèle fonctionne mieux avec la vision et lit des captures d'écran et des diagrammes plus denses avec une résolution allant jusqu'à 3,75 mégapixels. Pour les scénarios complexes, un nouveau niveau de raisonnement, xhigh, est apparu ; dans Claude Code, il est maintenant activé par défaut. De plus, l'entreprise a introduit Task Budgets en bêta pour limiter les dépenses de tokens par tâche et amélioré la mémoire dans les scénarios longs multi-sessions.
Le prix de l'API est resté inchangé, mais le nouveau tokenizer peut consommer jusqu'à 35% plus de tokens sur le même texte. En parallèle, Anthropic a lancé Claude Design — un outil séparé qui transforme un brief en plusieurs variantes d'interface, page de destination et présentation, puis fournit une exportation vers Canva, PDF, PPTX et HTML. OpenAI a répondu non pas avec un nouveau modèle, mais avec un nouveau mode de fonctionnement pour Codex.
Après la mise à jour, l'agent a obtenu computer use : il voit l'écran, déplace le curseur et exécute des actions via l'interface graphique. Au lancement, la fonctionnalité est disponible sur macOS, plusieurs agents pouvant travailler en parallèle sans intercepter le focus de l'utilisateur. Dans le produit, un navigateur intégré est apparu pour travailler avec localhost, la génération d'images directement dans le flux de tâches, la mémoire entre sessions et plus de 90 intégrations avec des services populaires comme Jira, GitLab, Microsoft 365, Notion et Slack.
Des automatisations programmées ont également été ajoutées, où l'agent lui-même remonte le contexte et prépare les tâches pour la journée. C'est un changement important : la concurrence porte de moins en moins sur la qualité des réponses dans le chat et de plus en plus sur la profondeur avec laquelle un modèle peut s'intégrer dans l'environnement de travail réel. Google et Baidu ont renforcé leur couche d'application la même semaine.
Gemini 3.1 Flash TTS prend en charge plus de 70 langues, 30 voix prédéfinies et plus de 200 balises audio qui peuvent être insérées directement dans le texte pour que le modèle puisse chuchoter, tousser ou changer l'intonation selon le scénario. Google propose un aperçu via AI Studio et Vertex AI et marque automatiquement le résultat d'un filigrane SynthID.
Baidu, de son côté, a ouvert ERNIE Image — un générateur d'images avec 8 milliards de paramètres qui peut s'exécuter sur 24 GB de mémoire vidéo. Le point fort du modèle est le rendu de texte à l'intérieur des images : des affiches aux interfaces et storyboards. Mais presque simultanément, un chercheur a démontré reverse-SynthID — un moyen ouvert de supprimer le filigrane invisible de Google des images générées avec une précision alléguée d'environ 91%.
C'est une bifurcation illustrative : les entreprises rendent rapidement la génération plus accessible, mais les mécanismes de protection autour du contenu d'IA restent fragiles. Les histoires les plus révélatrices de la semaine ne venaient pas des laboratoires. La marque de chaussures Allbirds a vendu ses actifs et son nom pour environ 39 millions de dollars, puis a annoncé un pivot vers GPU-as-a-Service sous le nouveau nom NewBird AI, et dans une vague de frénésie a vu ses actions augmenter plus de six fois en un jour.
Simultanément, une reprise d'IA de "Grey Night" avec une voix synthétique d'une superstar occidentale a atteint le sommet du classement mondial Shazam et s'est immédiatement transformée en un différend sur les droits, l'auteur et les royalties. Un autre cas — la fictive "bisonmania" inventée par une chercheuse suédoise : un diagnostic fabriqué a convaincu non seulement plusieurs LLM populaires, mais aussi les auteurs d'une véritable publication scientifique, qui ont cité la fausse préimpression comme une source authentique. De telles histoires ont un impact plus fort que n'importe quel benchmark : elles montrent comment l'IA interfère dans la musique, la finance, les médias et même la citation scientifique.
La conclusion de la semaine est simple : le marché de l'IA entre dans une phase où la valeur est déterminée non par des affirmations abstraites selon lesquelles un modèle est devenu plus intelligent, mais par sa capacité à assumer une part du travail réel, agir au sein des interfaces et influencer les processus au-delà du chat. Plus les agents font confiance à la transition du texte à l'action, plus important deviennent le contrôle, la vérification des faits, les droits sur le résultat et la robustesse des mécanismes de protection. Et c'est précisément là que les prochains mois seront aussi importants que la prochaine course aux benchmarks.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.