Anthropic lanza Claude Opus 4.7 con resultados líderes en codificación y tareas de agentes
Anthropic lanzó Claude Opus 4.7 — su modelo más potente disponible al público. La empresa reclama liderazgo en SWE-bench Pro con 64,3% frente al 57,7% de…
Procesado por IA desde TNW; editado por Hamidun News
Anthropic ha lanzado Claude Opus 4.7 y apuesta por que el siguiente estadio de la competencia entre modelos de IA se decidirá no solo por la calidad de las respuestas, sino también por la capacidad de ejecutar de forma estable largas cadenas de trabajo. La nueva versión se posiciona como el modelo de mayor disponibilidad pública de la empresa: escribe y corrige código mejor, mantiene el contexto multipasos con más confianza, y comete significativamente menos errores al trabajar con herramientas.
Para el mercado, este es un momento importante también porque no se trata de una vitrina experimental, sino de un modelo que puede comprarse e integrarse en flujos de trabajo ya mismo. El argumento principal del lanzamiento son los resultados en SWE-bench Pro, uno de los benchmarks más notables para evaluar la capacidad de los modelos de resolver tareas de ingeniería reales. Según la empresa, Claude Opus 4.
7 obtuvo un 64,3%, mientras que GPT-5.4 mostró un 57,7%. Para el mercado, esta es una señal importante: el foco ya no está en la "inteligencia" abstracta del modelo, sino en cuán bien puede entender bases de código, encontrar bugs, proponer parches y llevar las tareas a un resultado funcional.
Tales pruebas son observadas especialmente con atención por equipos que están implementando IA en desarrollo, soporte y automatización interna. El segundo énfasis de Anthropic es el comportamiento de agentes. La empresa habla de una coordinación más fuerte de múltiples agentes en escenarios que pueden durar horas.
Se trata de tareas donde el modelo no solo responde a una única solicitud, sino que planifica pasos, invoca herramientas, verifica resultados intermedios y continúa el trabajo sin intervención humana constante. Precisamente en esta clase de tareas es donde la diferencia entre una demostración impresionante y un sistema que puede integrarse en un proceso real se manifiesta más claramente: cuanto más larga sea la cadena de acciones, más costosos se vuelven los errores, la pérdida de contexto y las llamadas incorrectas de herramientas. En comparación con versiones anteriores, Anthropic también reporta una mejora del 14% en el razonamiento de agentes multipasos y tres veces menos errores al trabajar con herramientas.
Si estas cifras se confirman en la práctica, esto podría ser incluso más importante que la diferencia en un solo benchmark separado. Para usuarios corporativos, la confiabilidad suele ser más valorada que la calidad máxima: si el modelo menos frecuentemente "rompe" flujos de trabajo, no pierde estado e invoca más correctamente servicios externos, es más fácil permitirle realizar operaciones relacionadas con código, analítica, documentos y bots internos. La empresa también señala por separado un aumento de tres veces en la resolución de imágenes, lo que expande los escenarios donde el modelo puede usarse para leer esquemas, interfaces, diagramas y otros materiales visualmente ricos.
El precio se mantuvo en el rango que Anthropic ya usa para modelos senior: 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. Esto no parece un intento de dumping en el mercado, pero hace que el lanzamiento sea comprensible para clientes existentes: la empresa vende no solo otro incremento de calidad, sino una herramienta más confiable para trabajo complejo. Para equipos que cuentan la economía a través de tareas completadas, no solo a través del precio del token, este podría ser un argumento fuerte: un modelo más estable requiere menos comprobaciones manuales, ejecuciones repetidas y correcciones de errores tras llamadas fallidas.
Frente a la carrera entre Anthropic, OpenAI, Google y otros jugadores, este movimiento se ve lógico. Ahora gana no quien más alto anuncia la "inteligencia universal", sino quien tiene el modelo que mejor maneja tareas aplicadas: escribe código, gestiona herramientas, aguanta sesiones largas y entrega resultados predecibles en condiciones reales. La conclusión es simple: Claude Opus 4.
7 no es una actualización cosmética, sino la candidatura de Anthropic al liderazgo en el segmento de modelos para desarrollo y automatización por agentes. Si las mejoras prometidas coinciden con lo que los equipos ven en producción, la presión sobre los competidores se intensificará no por bonitas tablas comparativas, sino por una pregunta más práctica: qué modelo es más barato y seguro para poner en el centro de un flujo de trabajo real.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.