ZDNet: BlueOptima mostró que la AI para código en producción está muy por debajo de lo prometido
La AI se vende como una vía rápida para aumentar la eficiencia, pero en producción el panorama es más duro. El estudio de BlueOptima al que hace referencia ZDNe
AI чаще продают как кнопку мгновенной эффективности, чем как сложный инженерный проект. ZDNet обращает внимание на исследование BlueOptima и предупреждения аналитика Дэвида Линтикума: без подготовки, измерений и нормальной экспертизы внедрение может дать совсем не тот эффект, который обещают на презентациях.
Проверка на продакшене
Главный аргумент против AI-хайпа в статье очень приземлённый: смотреть нужно не на демо и не на бенчмарки, а на реальную работу в проде. Исследование BlueOptima BARE прогнало 57 больших языковых моделей через задачи по рефакторингу, связанному с поддерживаемостью кода. Для теста взяли 4276 реальных файлов на девяти языках — от C и C++ до Python, PHP и TypeScript.
В сумме получилось 243732 пары «модель-файл». На таком материале даже лучшие AI-модели показали успех менее чем в 23% случаев. Ещё болезненнее выглядит разрыв между красивыми цифрами из лаборатории и реальным применением.
На популярных бенчмарках многие модели набирали больше 85%, но на задачах, где нужно улучшить поддерживаемость производственного кода, средний результат составил около 17%. Успех считали строго: код должен компилироваться, корректно запускаться, не ломать исходное поведение и действительно улучшать поддерживаемость, а не просто выглядеть аккуратнее. Разница по языкам тоже большая: около 32% успеха в JavaScript против примерно 4% в C, а на сложных архитектурных задачах показатель падал до 1,5%.
Откуда берётся хайп Проблема, по мысли ZDNet, не в том, что AI бесполезен.
Проблема в том, что его часто продают как готовое решение, скрывая объём работы за кулисами. Чтобы модель реально приносила пользу, нужны интеграции, чистые данные, процесс ревью, контроль регрессий, безопасность, наблюдаемость и люди, которые понимают ограничения инструмента. Если этого нет, компания получает не ускорение, а дорогой эксперимент, который выглядит убедительно только на слайдах для руководства.
Если технология звучит слишком хорошо, чтобы быть правдой, скорее всего, так и есть.
Дэвид Линтикум добавляет ещё один слой проблемы: рынок вознаграждает не самых компетентных, а самых уверенных. AI стал удобным ярлыком для всего «умного» и «современного», поэтому вокруг темы быстро растёт прослойка консультантов, евангелистов и менеджеров, которые выучили словарь, но не понимают, как всё это работает в контексте бизнеса. В итоге решения об инвестициях и стратегии могут опираться на поверхностную экспертизу. Линтикум предупреждает, что такие системы иногда обходятся в 10–20 раз дороже традиционных альтернатив, а ошибки в выборе курса легко превращаются в лишние расходы и стратегические промахи.
Как сопротивляться Сопротивляться хайпу — не значит отвергать AI.
Это значит перестать покупать обещание «магии» и начать управлять технологией как обычной сложной системой. Проверка должна идти от конкретной задачи, а не от модного ярлыка. Если цель можно решить обычной автоматизацией, правилами или доработкой процесса, это тоже нормальный результат. AI имеет смысл там, где его преимущества можно измерить на реальных сценариях, а не угадать по презентации вендора.
- Сначала фиксировать бизнес-задачу и базовую метрику до внедрения.
- Тестировать модели на своих данных, коде и рабочих процессах, а не на чужих демо.
- Считать полную стоимость: лицензии, инфраструктуру, ревью, безопасность и поддержку.
- Назначать ответственными людей, которые понимают и сильные стороны AI, и его пределы. Такой подход отрезвляет ожидания. Он не отменяет полезные кейсы — AI может ускорять черновую работу, помогать в поиске, подсказывать варианты рефакторинга и экономить время команды. Но там, где речь идёт о сложной архитектуре, критичных изменениях или автономных решениях без проверки человеком, цена ошибки пока слишком высока. Поэтому зрелые команды смотрят не на громкость обещаний, а на воспроизводимый результат и не путают удачную подсказку со зрелым продуктом.
Что это значит
Сейчас AI чаще разочаровывает не потому, что у него нет потенциала, а потому, что рынок продаёт его быстрее, чем компании успевают понять реальные границы технологии. Выиграют те, кто будет мерить эффект на продакшене, фильтровать шум и покупать не хайп, а внятную экспертизу.