MarkTechPost→ оригинал

Meta apresentou Autodata — um sistema de agentes para criar dados de treinamento de alta qualidade

Meta anunciou Autodata — um sistema em que LLMs atuam como cientistas de dados autônomos e, de forma iterativa, criam, validam e refinam exemplos de treinamento

Meta apresentou Autodata — um sistema de agentes para criar dados de treinamento de alta qualidade
Источник: MarkTechPost. Коллаж: Hamidun News.
◐ Слушать статью

Meta 1 мая представила Autodata — фреймворк, в котором LLM-агенты сами собирают, проверяют и дорабатывают тренировочные датасеты. Идея в том, чтобы превратить модель из простого генератора synthetic data в автономного data scientist’а, который итеративно улучшает качество примеров.

Зачем нужен

Autodata Синтетические данные давно стали одним из главных способов ускорить обучение моделей: они дешевле ручной разметки, помогают покрывать редкие сценарии и позволяют генерировать более сложные задания, чем те, что легко найти в открытых корпусах. Но у большинства популярных подходов — от Self-Instruct до grounded- и CoT-вариантов — есть общий предел: они создают данные в один проход, а качество контролируется уже после генерации через фильтрацию или ручную доводку. Autodata меняет саму логику процесса.

Вместо того чтобы один раз сгенерировать примеры и надеяться, что среди них окажутся удачные, Meta предлагает замкнутый цикл, похожий на работу живого исследователя данных. Агент опирается на исходные документы, создает задания, анализирует, где они слишком легкие, слишком шумные или недостаточно полезные, а затем переписывает собственный рецепт генерации и пробует снова. По сути, дополнительный inference compute идет не только в ответы модели, но и в улучшение самих данных, на которых она потом учится.

Как устроен цикл Первая практическая реализация фреймворка называется Agentic Self-Instruct.

В ней центральная LLM выступает оркестратором и управляет несколькими специализированными агентами, каждый из которых отвечает за отдельный этап проверки качества. Такой конвейер нужен, чтобы в датасет попадали не просто корректные примеры, а именно те, где сильная модель стабильно показывает лучший результат, чем слабая. В качестве основы агент использует исходные материалы вроде научных статей, кода или других предметных документов.

Challenger создает новый вопрос, контекст, эталонный ответ и рубрику оценки на основе исходного документа. Weak solver пытается решить задачу в ограниченном режиме и должен проваливаться заметно чаще. * Strong solver решает ту же задачу с более сильной конфигурацией и должен проходить порог качества.

* Verifier/Judge проверяет сам пример и затем оценивает ответы обеих моделей по заранее заданным критериям. Если вопрос оказывается слишком простым, слабая модель набирает слишком много баллов и пример отбрасывается. Если он слишком трудный, сильная модель тоже не проходит и агенту приходится искать другой угол атаки.

Для принятия примера Meta использует конкретные пороги: средний результат weak solver должен быть не выше 65%, strong solver — не ниже 60% и не выше 95%, а разрыв между ними — минимум 20 процентных пунктов. На один документ обычно уходит несколько раундов такой переработки.

«Агентное создание данных позволяет превращать дополнительный

inference compute в более качественное обучение моделей».

Что показали тесты Meta проверила Agentic Self-Instruct на научных задачах по computer science.

Система обработала более 10 тысяч статей из корпуса S2ORC за 2022 год и позже и в итоге собрала 2117 пар вопрос-ответ, которые прошли все фильтры качества. Ключевой результат — не просто рост количества данных, а рост их различающей силы. В обычном CoT Self-Instruct слабая и сильная модели показывали почти одинаковые результаты: 71,4% против 73,3%, то есть разрыв был всего 1,9 пункта.

В агентном режиме weak solver упал до 43,7%, а strong solver вырос до 77,8%, и разрыв расширился до 34 пунктов. Дальше Meta оптимизировала уже не сами вопросы, а «поведение» data scientist-агента. Во внешнем цикле эволюционный оптимизатор запускал новые версии хранилища промптов и логики оценки, оставляя только те, что улучшали валидационный результат.

Всего прошло 233 итерации, из них 126 были приняты, а доля успешных прогонов выросла с 12,8% до 42,4%. Среди автоматически найденных улучшений были более жесткая проверка привязки вопроса к конкретной статье, защита от утечки решения в контекст, отказ от отрицательных весов в рубриках и перевод критериев в строгий JSON-формат. И это уже меняет экономику посттрейнинга.

Что это значит

Autodata показывает, что следующий слой конкуренции в AI может сместиться с «кто обучил самую большую модель» к «кто построил лучший конвейер данных». Для прикладных команд это особенно важно: вместо бесконечной ручной разметки можно вкладывать compute в агент, который сам отбирает трудные, точные и действительно полезные примеры для дообучения и оценки моделей.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…