Opus 4.7 d'Anthropic consomme plus de tokens : inflation cachée à prix inchangés
Dans Opus 4.7 d'Anthropic, le même texte est tokenisé en plus de tokens que dans Opus 4.6. Formellement, les prix et les limites de contexte n'ont pas…
Traité par IA depuis Habr AI ; édité par Hamidun News
Anthropic a lancé Claude Opus 4.7, et les tests initiaux via l'API ont révélé quelque chose d'inattendu : le même texte dans le nouveau modèle peut occuper significativement plus de tokens qu'en Opus 4.6. Avec des prix formellement inchangés, cela représente une augmentation discrète mais réelle des coûts.
Quel Est le Problème
Un tokeniseur est un composant qui divise le texte en fragments avant de l'alimenter au modèle. C'est précisément le nombre de ces fragments qui détermine le coût d'une requête et le volume de la fenêtre de contexte occupée. Quand Anthropic change le tokeniseur entre les versions, le même prompt commence à « peser » différemment. Dans le cas d'Opus 4.7, le poids a augmenté. Si auparavant votre requête typique occupait 1 000 tokens, elle peut maintenant en occuper 1 300–1 500. Le prix par million de tokens n'a pas changé—mais vous consommez réellement plus de tokens pour le même travail.
«
Cela crée une inflation cachée : les prix et les limites sont listés comme avant, mais en pratique les coûts peuvent augmenter » — de la recherche de l'équipe Kodik.
Kodik, une entreprise qui développe un éditeur de code avec support de plusieurs modèles d'IA, a testé indépendamment le comportement du tokeniseur via l'API. Les données comparatives officielles d'Anthropic n'ont pas été publiées, donc les développeurs ont mené leurs propres tests et partagé leurs conclusions.
Quel Contenu Est Plus Affecté
L'augmentation des tokens n'est pas uniforme selon les différents types de texte. Sur la base des données disponibles, le tableau se présente comme suit :
- Code — augmentation perceptible, notamment dans les langages avec beaucoup de caractères spéciaux : opérateurs, crochets, indentation
- Chaînes techniques (JSON, XML, YAML, SQL) — les changements varient selon la structure ; les constructions imbriquées peuvent croître davantage
- Prompts système — affectés de la même manière que les requêtes utilisateur ; pour les produits avec de longues instructions système, c'est particulièrement sensible
- Texte simple — croissance modérée, moins perceptible sur les requêtes courtes
- Contenu mixte (texte + code + JSON) — comportement imprévisible ; vaut la peine d'être testé pour votre scénario spécifique
Il est important de tenir compte de l'échelle : si un prompt augmente de 20%, et que vous avez un million de requêtes par jour, votre facture réelle changera très significativement.
Pourquoi Ceci Est un Problème Systémique
La situation avec Opus 4.7 n'est pas une exception. Le tokeniseur peut changer dans n'importe quel modèle de n'importe quel fournisseur, et ce n'est pas toujours indiqué explicitement dans les notes de version. Pour les équipes construisant des produits sur des APIs, cela crée plusieurs risques.
Surprises budgétaires. Les limites calculées sur la base de données historiques peuvent être dépassées de manière inattendue après un changement de modèle—même si les requêtes elles-mêmes n'ont pas changé.
Débordement de fenêtre de contexte. Un système qui tenait auparavant dans 128k tokens peut commencer à tronquer le contexte ou renvoyer une erreur après une mise à jour.
Tests A/B déloyaux. Lors de la comparaison de la qualité de deux versions de modèle sur les mêmes données, des tokeniseurs différents signifient que les modèles reçoivent une entrée techniquement différente—cela affecte l'interprétation des résultats.
Régression cachée dans les pipelines RAG. Si vous compressez des chunks par limite de tokens, un changement de tokeniseur peut casser votre logique de division sans une seule erreur dans les journaux.
Ce Que Cela Signifie
Les développeurs utilisant déjà Opus en production ou prévoyant de passer à 4.7 devraient exécuter vos vrais prompts via l'API tokeniseur des deux versions avant de basculer. Cela prendra quelques heures, mais vous permettra d'évaluer honnêtement l'augmentation des coûts et d'ajuster votre budget ou votre architecture en conséquence. Le cas Opus 4.7 est un bon rappel : lors de la mise à niveau d'un modèle, vérifiez non seulement la qualité des réponses, mais aussi l'efficacité de la tokenisation.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.