Habr AI→ original

Anthropic a changé le caractère de Claude Opus 4.7—et certains développeurs ont vu une régression

Anthropic a lancé Claude Opus 4.7 au même prix avec des benchmarks solides, mais la réaction de la communauté s'est avérée dure. Les développeurs se…

Traité par IA depuis Habr AI ; édité par Hamidun News
Anthropic a changé le caractère de Claude Opus 4.7—et certains développeurs ont vu une régression
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Le 16 avril 2026, Anthropic a lancé Claude Opus 4.7 en gardant le prix inchangé, mais en l'espace de 24 heures, certains développeurs ont qualifié la mise à jour de régression. Le problème n'est pas un seul échec d'un benchmark, mais un changement dans le comportement du modèle : il est devenu plus sec, plus littéral et notablement plus enclin à discuter avec l'utilisateur.

Pourquoi une réaction si vive

Sur le papier, le lancement semblait très fort. Anthropic a revendiqué des victoires dans 12 des 14 benchmarks, des gains en SWE-bench Verified, MCP-Atlas et plusieurs autres tests, ainsi que des améliorations pour la vision et les tâches d'agent longue durée. Le prix est resté le même.

Mais presque immédiatement après le lancement, Reddit et X ont été inondés de plaintes : les utilisateurs ont signalé que Claude Opus 4.7 discute plus souvent avec les instructions, refuse les actions simples et défend parfois avec confiance une réponse incorrecte au lieu de simplement admettre une erreur. Le problème s'est avéré être non pas tant une question générale de qualité qu'une inadéquation entre le nouveau caractère du modèle et la façon familière de travailler avec lui.

Là où Claude était auparavant trop accommodant, il est maintenant plus strict et plus littéral. Pour certaines tâches, c'est un plus, mais pour le développement routinier c'est l'inverse : le modèle commence à discuter de trivialités, ralentit le flux de travail et ajoute du bruit.

'Le modèle discute sans arrêt et hallucine en discutant'.

Sept nouveaux paramètres par défaut

La conclusion principale du lancement est celle-ci : Anthropic a changé non seulement les métriques, mais les paramètres comportementaux de base du modèle. Si une équipe a passé beaucoup de temps à accorder des prompts pour Opus 4.6, passer à 4.7 peut casser un pipeline déjà fonctionnel même sans changements d'API. C'est un nouveau type de breaking change pour LLM : l'interface est la même, mais le modèle interprète la tâche différemment.

  • adhérence plus littérale aux instructions au lieu de lire entre les lignes
  • la longueur de la réponse dépend maintenant davantage de la manière dont le modèle lui-même a évalué la complexité de la tâche
  • par défaut il y a moins d'appels d'outils et moins de délégation de sous-tâches
  • les mises à jour de progression intermédiaires sont maintenant plus souvent données par le modèle lui-même, sans scaffolding supplémentaire
  • la cybersécurité et les filtres ont été renforcés, et le ton des réponses est devenu plus sec et moins 'commode'

Pour cette raison, les anciens prompts avec des formulations vagues comme 'rends-le joli' fonctionnent moins bien. Ce qui était auparavant compensé par l'intuition du modèle doit maintenant être décrit comme une spécification : format de réponse, contraintes, profondeur souhaitée, règles d'outils et limites de sécurité. Anthropic elle-même recommande d'exécuter des tests de régression sur le trafic réel avant la migration, et dans le cas de 4.7, cela semble non pas une formalité mais une étape obligatoire.

Où c'est mieux, où c'est pire

La mise à jour a des forces évidentes. Selon la description d'Anthropic et les premiers avis, 4.7 maintient mieux les longs fils dans les scénarios d'agent, fonctionne plus confiamment aux niveaux d'effort élevé et xhigh, est plus fort dans la refactorisation multi-fichiers, et gagne notoirement en vision : la limite d'image d'entrée a augmenté à environ 3,75 mégapixels contre les 1,15 précédents. Pour les tâches où l'autonomie, l'auto-vérification et les horizons de planification long terme sont importants, un tel modèle peut être effectivement plus utile que Opus 4.6.

Les faiblesses se sont manifestées dans le travail quotidien d'un développeur. Les modifications simples comme renommer des variables, ajouter des vérifications null ou la refactorisation locale se transforment plus souvent en arguments avec l'assistant. Les utilisateurs se plaignent séparément de l'augmentation des dépenses de tokens, ce qui rend les mêmes scénarios plus chers, et de la dégradation de la récupération du contexte long.

Sur ce fond, le compromis de sécurité est également préoccupant : Anthropic a explicitement déclaré que lors de l'entraînement elle avait sélectivement affaibli certaines capacités cyber et ajouté des safeguards automatiques, laissant la version plus forte aux partenaires. De plus, l'entreprise a discrètement retiré Claude Code du plan Pro de $20 le 21 avril 2026, renforçant le sentiment que les conditions pour les utilisateurs ordinaires ont empiré.

Ce que cela signifie

L'histoire de Claude Opus 4.7 montre que les nouvelles versions de LLM doivent maintenant être évaluées non seulement par des benchmarks mais par les changements du 'caractère' du modèle. Si auparavant un prompt pouvait être écrit comme une demande à un collègue, maintenant de plus en plus un format de spécification précise est nécessaire. Pour les équipes cela signifie une chose : avant de mettre à niveau un modèle, vous devez tester non pas l'intelligence abstraite mais votre workflow réel.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…