Opus 4.7 de Anthropic consume más tokens: inflación oculta con precios sin cambios
En Opus 4.7 de Anthropic, el mismo texto se tokeniza en más tokens que en Opus 4.6. Formalmente, los precios y límites de contexto no han cambiado, pero en…
Procesado por IA desde Habr AI; editado por Hamidun News
Anthropic ha lanzado Claude Opus 4.7, y las pruebas iniciales a través de la API revelaron algo inesperado: el mismo texto en el nuevo modelo puede ocupar significativamente más tokens que en Opus 4.6. Con precios formalmente sin cambios, esto representa un aumento discreto, pero real, en los costos.
Cuál Es el Problema
Un tokenizador es un componente que divide el texto en fragmentos antes de alimentarlo al modelo. Es precisamente el número de estos fragmentos lo que determina el costo de una solicitud y el volumen de la ventana de contexto ocupada. Cuando Anthropic cambia el tokenizador entre versiones, el mismo prompt comienza a "pesar" diferentemente. En el caso de Opus 4.7, el peso aumentó. Si antes su solicitud típica ocupaba 1.000 tokens, ahora puede ocupar 1.300–1.500. El precio por millón de tokens no ha cambiado—pero en realidad está consumiendo más tokens por el mismo trabajo.
"Esto crea una inflación oculta: los precios y los límites se enumeran como antes, pero en la práctica los costos pueden aumentar" — de la investigación del equipo
Kodik.
Kodik, una empresa que desarrolla un editor de código con compatibilidad con varios modelos de IA, probó independientemente el comportamiento del tokenizador a través de la API. Los datos comparativos oficiales de Anthropic no se publicaron, por lo que los desarrolladores realizaron sus propias pruebas y compartieron sus hallazgos.
Qué Contenido Se Ve Más Afectado
El aumento de tokens no es uniforme en diferentes tipos de texto. En función de los datos disponibles, el panorama se ve así:
- Código — aumento perceptible, especialmente en lenguajes con muchos caracteres especiales: operadores, paréntesis, sangría
- Strings técnicas (JSON, XML, YAML, SQL) — los cambios varían según la estructura; las construcciones anidadas pueden crecer más
- Prompts del sistema — afectados de la misma manera que las solicitudes de usuario; para productos con instrucciones del sistema largas esto es particularmente sensible
- Texto simple — crecimiento moderado, menos notable en solicitudes cortas
- Contenido mixto (texto + código + JSON) — comportamiento impredecible; vale la pena probar en su escenario específico
Es importante considerar la escala: si un prompt crece un 20%, y tiene un millón de solicitudes al día, su factura real cambiará muy significativamente.
Por Qué Esto Es un Problema Sistémico
La situación con Opus 4.7 no es una excepción. El tokenizador puede cambiar en cualquier modelo de cualquier proveedor, y no siempre aparece explícitamente en las notas de lanzamiento. Para equipos que construyen productos sobre APIs, esto crea varios riesgos.
Sorpresas presupuestarias. Los límites calculados en función de datos históricos pueden superarse inesperadamente después de un cambio de modelo—incluso si las solicitudes en sí no han cambiado.
Desbordamiento de ventana de contexto. Un sistema que antes cabía dentro de 128k tokens puede comenzar a truncar contexto o devolver un error después de una actualización.
Pruebas A/B injustas. Al comparar la calidad de dos versiones de modelo en los mismos datos, los diferentes tokenizadores significan que los modelos reciben entrada técnicamente diferente—esto afecta la interpretación de los resultados.
Regresión oculta en pipelines RAG. Si empaqueta chunks por límite de tokens, un cambio de tokenizador puede romper su lógica de división sin un solo error en los registros.
Qué Significa Esto
Los desarrolladores que ya utilizan Opus en producción o planean cambiar a 4.7 deben ejecutar sus prompts reales a través de la API de tokenizador de ambas versiones antes de cambiar. Esto tomará algunas horas, pero le permitirá evaluar honestamente el aumento de costos y ajustar su presupuesto o arquitectura en consecuencia. El caso de Opus 4.7 es un buen recordatorio: al actualizar un modelo, verifique no solo la calidad de las respuestas, sino también la eficiencia de la tokenización.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.