AWS Machine Learning Blog→ оригинал

AWS عرضت كيف يمكن خفض تكلفة text-to-SQL للشركات باستخدام Amazon Nova Micro وBedrock

قدمت AWS وصفة عملية لـ text-to-SQL لقواعد البيانات المؤسسية: ضبط Amazon Nova Micro على لهجة SQL الخاصة بالشركة وتشغيل النموذج عبر Bedrock مع احتساب التكلفة حسب

AWS عرضت كيف يمكن خفض تكلفة text-to-SQL للشركات باستخدام Amazon Nova Micro وBedrock
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.
◐ Слушать статью

AWS показала, как получить text-to-SQL для внутренних баз данных без дорогого постоянного хостинга модели. Компания донастроила Amazon Nova Micro под нестандартные SQL-диалекты и развернула её через Amazon Bedrock с оплатой только за реальные запросы.

Зачем это нужно

Для корпоративных сценариев обычной модели часто мало: она неплохо пишет стандартный SQL, но начинает ошибаться, когда в компании есть собственные соглашения, редкие функции, особые схемы таблиц и доменные правила. Именно поэтому текстовый запрос пользователя приходится адаптировать под конкретный диалект и структуру базы, а значит — дообучать модель на своих примерах. Это особенно заметно в BI-системах и внутренних аналитических чатах, где ошибка в синтаксисе сразу ломает весь сценарий.

Проблема в том, что дообучение обычно тянет за собой ещё и постоянные расходы на инфраструктуру. Если держать кастомную модель на выделенных серверах, компания платит даже тогда, когда запросов нет. AWS в своём разборе предлагает другой вариант: донастроить Amazon Nova Micro через LoRA и запускать её в Amazon Bedrock в режиме on-demand inference, где биллинг идёт по токенам, а не по постоянно забронированным мощностям.

Два подхода AWS AWS описывает два сценария работы с одной и той же задачей.

Первый — управляемая донастройка внутри Amazon Bedrock. Он подходит командам, которым важны простота, быстрый старт и минимум возни с ML-инфраструктурой. Данные загружаются в S3, задание на fine-tuning запускается через консоль или API, а дальше AWS сама управляет обучением и последующим деплоем кастомной версии Nova Micro.

Такой вариант рассчитан скорее на прикладную команду, чем на отдельную ML-платформу. Второй путь — обучение через Amazon SageMaker AI. Он сложнее, но даёт больше контроля над рецептом обучения: можно менять размер батча, dropout, параметры оптимизатора, контекстное окно, LoRA-настройки и стратегию прогрева learning rate.

В примере AWS использовала датасет sql-create-context, собранный на базе WikiSQL и Spider, а сами пары вопрос—SQL конвертировала в формат bedrock-conversation-2024 для последующего обучения и валидации. За это приходится платить большей сложностью конфигурации и более явной работой с инфраструктурой. Вот чем отличаются эти варианты на практике: Bedrock — меньше операционной нагрузки и быстрее путь к рабочему прототипу SageMaker AI — больше контроля над гиперпараметрами и интеграцией в MLOps Обе схемы используют один и тот же пайплайн подготовки данных и затем разворачиваются в Bedrock Финальный инференс идёт по серверлесс-модели с оплатой за токены, без постоянного хостинга ## Цена и задержки AWS приводит конкретные цифры.

Для управляемой донастройки Bedrock стоимость обучения считается как $0.001 за 1 000 токенов на эпоху: в примере с 2 000 примеров, пятью эпохами и примерно 800 токенами на запись получилось около $8. Для варианта через SageMaker использовался инстанс ml.

g5.48xlarge по $16.288 в час; обучение на датасете в 20 000 строк заняло около четырёх часов и обошлось примерно в $65.

15. Ключевой тезис статьи — не разовая цена обучения, а стоимость эксплуатации. AWS оценила примерную production-нагрузку в 22 000 запросов в месяц, или 100 пользователей по 10 запросов в день в течение 22 рабочих дней.

При среднем размере запроса в 800 входных и 60 выходных токенов ежемесячный инференс для такой кастомной text-to-SQL модели составил $0.80. Это возможно потому, что кастомная Nova Micro в Bedrock тарифицируется так же, как базовая модель, без отдельной наценки на серверлесс-развёртывание.

По скорости компромисс есть, но он умеренный. При холодном старте среднее время до первого токена выросло до 639 мс, что на 34% выше базовой модели. В обычной работе средний TTFT составил 380 мс по 50 вызовам — лишь на 7% хуже базы.

Полная задержка генерации была около 477 мс, а скорость вывода держалась на уровне 183 токенов в секунду. AWS проверяла качество не только по задержкам, но и через LLM-as-a-Judge, сравнивая сгенерированный SQL с эталонными ответами.

Что это значит

Для команд, которые хотят встроить text-to-SQL в аналитические продукты, внутренние BI-инструменты или чат-интерфейсы к базе, кейс AWS выглядит практично: можно получить кастомный SQL-генератор без постоянных затрат на выделенную инфраструктуру. Если важнее скорость запуска, логичнее смотреть в сторону Bedrock; если нужен полный контроль над обучением, тогда сильнее выглядит связка с SageMaker AI.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…