TNW→ оригинал

Anthropic lança Claude Opus 4.7 com melhores resultados em codificação e tarefas de agentes

Anthropic lançou Claude Opus 4.7 — seu modelo mais forte disponível ao público. A empresa reivindica liderança em SWE-bench Pro com 64,3% contra 57,7% para GPT-

Anthropic lança Claude Opus 4.7 com melhores resultados em codificação e tarefas de agentes
Источник: TNW. Коллаж: Hamidun News.

Anthropic выпустила Claude Opus 4.7 и делает ставку на то, что следующий этап конкуренции между ИИ-моделями будет решаться не только качеством ответов, но и способностью стабильно выполнять длинные рабочие цепочки. Новая версия позиционируется как самая сильная общедоступная модель компании: она лучше пишет и исправляет код, увереннее держит многошаговый контекст и заметно реже ошибается при работе с инструментами.

Для рынка это важный момент еще и потому, что речь идет не об экспериментальной витрине, а о модели, которую можно покупать и встраивать в рабочие процессы уже сейчас. Главный аргумент релиза — результаты на SWE-bench Pro, одном из самых заметных бенчмарков для оценки способности моделей решать реальные инженерные задачи. По данным компании, Claude Opus 4.

7 набрала 64,3%, тогда как GPT-5.4 показала 57,7%. Для рынка это важный сигнал: в центре внимания уже не абстрактная «умность» модели, а то, насколько хорошо она может понимать кодовую базу, находить баги, предлагать патчи и доводить задачу до рабочего результата.

Такие тесты особенно внимательно смотрят команды, которые внедряют ИИ в разработку, саппорт и внутреннюю автоматизацию. Второй акцент Anthropic — агентное поведение. Компания говорит о более сильной координации нескольких агентов в сценариях, которые могут длиться часами.

Речь идет о задачах, где модель не просто отвечает на один запрос, а планирует шаги, вызывает инструменты, проверяет промежуточные результаты и продолжает работу без постоянного вмешательства человека. Именно в этом классе задач чаще всего проявляется разница между эффектной демо-версией и системой, которую можно встроить в реальный процесс: чем длиннее цепочка действий, тем дороже становятся ошибки, потери контекста и неверные вызовы инструментов. По сравнению с предыдущими версиями Anthropic также заявляет 14-процентное улучшение в многошаговом агентном рассуждении и втрое меньше ошибок при работе с инструментами.

Если эти цифры подтверждаются на практике, это может быть даже важнее, чем разница в одном отдельном бенчмарке. Для корпоративных пользователей надежность обычно ценнее максимального пикового качества: если модель чуть реже «ломает» workflow, не теряет состояние и корректнее вызывает внешние сервисы, ее проще допустить к операциям, связанным с кодом, аналитикой, документами и внутренними ботами. Отдельно компания указывает и на рост разрешения изображений в три раза, что расширяет сценарии, где моделью можно пользоваться для чтения схем, интерфейсов, диаграмм и других визуально насыщенных материалов.

Ценник остался в диапазоне, который Anthropic уже использует для старших моделей: 5 долларов за миллион входных токенов и 25 долларов за миллион выходных. Это не выглядит попыткой демпинговать рынок, но делает релиз понятным для существующих клиентов: компания продает не просто еще одну прибавку к качеству, а более надежный инструмент для сложной работы. Для команд, которые считают экономику через завершенные задачи, а не только через цену токена, это может оказаться сильным аргументом: более стабильная модель требует меньше ручных проверок, повторных прогонов и исправления ошибок после неудачных вызовов.

На фоне гонки между Anthropic, OpenAI, Google и другими игроками такой ход выглядит логичным. Сейчас побеждает не тот, кто громче заявляет о «универсальном интеллекте», а тот, чья модель лучше справляется с прикладными задачами: пишет код, управляет инструментами, выдерживает длинные сессии и дает предсказуемый результат в боевых условиях. Вывод простой: Claude Opus 4.

7 — это не косметическое обновление, а заявка Anthropic на лидерство в сегменте моделей для разработки и агентной автоматизации. Если обещанные улучшения совпадут с тем, что увидят команды в продакшене, давление на конкурентов усилится не из-за красивых сравнительных таблиц, а из-за более практичного вопроса — какую модель дешевле и безопаснее поставить в центр реального рабочего процесса.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…