ZDNet AI→ оригинал

ZDNet: BlueOptima showed that AI for code in production is noticeably weaker than promised

AI is sold as a fast path to efficiency gains, but the picture in production is harsher. The BlueOptima study cited by ZDNet found that the best models for code

◐ Слушать статью

AI чаще продают как кнопку мгновенной эффективности, чем как сложный инженерный проект. ZDNet обращает внимание на исследование BlueOptima и предупреждения аналитика Дэвида Линтикума: без подготовки, измерений и нормальной экспертизы внедрение может дать совсем не тот эффект, который обещают на презентациях.

Проверка на продакшене

Главный аргумент против AI-хайпа в статье очень приземлённый: смотреть нужно не на демо и не на бенчмарки, а на реальную работу в проде. Исследование BlueOptima BARE прогнало 57 больших языковых моделей через задачи по рефакторингу, связанному с поддерживаемостью кода. Для теста взяли 4276 реальных файлов на девяти языках — от C и C++ до Python, PHP и TypeScript.

В сумме получилось 243732 пары «модель-файл». На таком материале даже лучшие AI-модели показали успех менее чем в 23% случаев. Ещё болезненнее выглядит разрыв между красивыми цифрами из лаборатории и реальным применением.

На популярных бенчмарках многие модели набирали больше 85%, но на задачах, где нужно улучшить поддерживаемость производственного кода, средний результат составил около 17%. Успех считали строго: код должен компилироваться, корректно запускаться, не ломать исходное поведение и действительно улучшать поддерживаемость, а не просто выглядеть аккуратнее. Разница по языкам тоже большая: около 32% успеха в JavaScript против примерно 4% в C, а на сложных архитектурных задачах показатель падал до 1,5%.

Откуда берётся хайп Проблема, по мысли ZDNet, не в том, что AI бесполезен.

Проблема в том, что его часто продают как готовое решение, скрывая объём работы за кулисами. Чтобы модель реально приносила пользу, нужны интеграции, чистые данные, процесс ревью, контроль регрессий, безопасность, наблюдаемость и люди, которые понимают ограничения инструмента. Если этого нет, компания получает не ускорение, а дорогой эксперимент, который выглядит убедительно только на слайдах для руководства.

Если технология звучит слишком хорошо, чтобы быть правдой, скорее всего, так и есть.

Дэвид Линтикум добавляет ещё один слой проблемы: рынок вознаграждает не самых компетентных, а самых уверенных. AI стал удобным ярлыком для всего «умного» и «современного», поэтому вокруг темы быстро растёт прослойка консультантов, евангелистов и менеджеров, которые выучили словарь, но не понимают, как всё это работает в контексте бизнеса. В итоге решения об инвестициях и стратегии могут опираться на поверхностную экспертизу. Линтикум предупреждает, что такие системы иногда обходятся в 10–20 раз дороже традиционных альтернатив, а ошибки в выборе курса легко превращаются в лишние расходы и стратегические промахи.

Как сопротивляться Сопротивляться хайпу — не значит отвергать AI.

Это значит перестать покупать обещание «магии» и начать управлять технологией как обычной сложной системой. Проверка должна идти от конкретной задачи, а не от модного ярлыка. Если цель можно решить обычной автоматизацией, правилами или доработкой процесса, это тоже нормальный результат. AI имеет смысл там, где его преимущества можно измерить на реальных сценариях, а не угадать по презентации вендора.

  • Сначала фиксировать бизнес-задачу и базовую метрику до внедрения.
  • Тестировать модели на своих данных, коде и рабочих процессах, а не на чужих демо.
  • Считать полную стоимость: лицензии, инфраструктуру, ревью, безопасность и поддержку.
  • Назначать ответственными людей, которые понимают и сильные стороны AI, и его пределы. Такой подход отрезвляет ожидания. Он не отменяет полезные кейсы — AI может ускорять черновую работу, помогать в поиске, подсказывать варианты рефакторинга и экономить время команды. Но там, где речь идёт о сложной архитектуре, критичных изменениях или автономных решениях без проверки человеком, цена ошибки пока слишком высока. Поэтому зрелые команды смотрят не на громкость обещаний, а на воспроизводимый результат и не путают удачную подсказку со зрелым продуктом.

Что это значит

Сейчас AI чаще разочаровывает не потому, что у него нет потенциала, а потому, что рынок продаёт его быстрее, чем компании успевают понять реальные границы технологии. Выиграют те, кто будет мерить эффект на продакшене, фильтровать шум и покупать не хайп, а внятную экспертизу.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…