Meta apresentou Autodata — um sistema de agentes para criar dados de treinamento de alta qualidade
Meta anunciou Autodata — um sistema em que LLMs atuam como cientistas de dados autônomos e, de forma iterativa, criam, validam e refinam exemplos de…
Processado por IA de MarkTechPost; editado por Hamidun News
Meta em 1º de maio apresentou o Autodata — um framework no qual agentes LLM coletam, verificam e refinam datasets de treinamento por conta própria. A ideia é transformar um modelo de um simples gerador de dados sintéticos em um data scientist autônomo que melhora iterativamente a qualidade dos exemplos.
Por que o Autodata é necessário
Dados sintéticos há muito tempo são uma das principais maneiras de acelerar o treinamento de modelos: são mais baratos que anotação manual, ajudam a cobrir cenários raros e permitem gerar tarefas mais complexas do que aquelas facilmente encontradas em corpus abertos. Mas a maioria das abordagens populares — de Self-Instruct a variantes grounded- e CoT — tem uma limitação comum: criam dados em uma única passada, e a qualidade é controlada após a geração através de filtragem ou refinamento manual.
O Autodata muda a lógica do processo em si. Em vez de gerar exemplos uma vez e esperar encontrar bons entre eles, Meta propõe um loop fechado semelhante a como trabalha um data scientist vivo. O agente se baseia em documentos fonte, cria tarefas, analisa onde são muito fáceis, muito ruidosas ou insuficientemente úteis, depois reescreve sua própria fórmula de geração e tenta novamente. Essencialmente, o compute de inferência adicional vai não apenas nas respostas do modelo, mas também em melhorar os dados nos quais ele depois aprende.
Como o ciclo funciona
A primeira implementação prática do framework é chamada Agentic Self-Instruct. Nela, um LLM central atua como um orquestrador e gerencia vários agentes especializados, cada um responsável por um estágio separado de verificação de qualidade. Este pipeline é necessário para que o dataset contenha não apenas exemplos corretos, mas precisamente aqueles onde um modelo forte consistentemente mostra melhores resultados do que um modelo fraco.
O agente usa materiais fonte como artigos científicos, código ou outros documentos de domínio como fundação.
- Challenger cria uma nova pergunta, contexto, resposta de referência e rubrica de avaliação baseado no documento fonte.
- Weak solver tenta resolver a tarefa em modo limitado e deve falhar notavelmente mais frequentemente.
- Strong solver resolve a mesma tarefa com uma configuração mais forte e deve passar no limiar de qualidade.
- Verifier/Judge verifica o exemplo em si e depois avalia as respostas de ambos os modelos contra critérios pré-definidos.
Se a pergunta se mostrar muito fácil, o modelo fraco pontua muitos pontos e o exemplo é descartado. Se for muito difícil, o modelo forte também falha e o agente precisa encontrar um ângulo de ataque diferente. Para aceitação de exemplo, Meta usa limiares específicos: o resultado médio do weak solver deve ser no máximo 65%, o do strong solver — pelo menos 60% e no máximo 95%, e a lacuna entre eles — pelo menos 20 pontos percentuais.
Um documento normalmente requer vários rounds de tal refinamento.
"A criação ágil de dados permite converter compute de inferência
adicional em treinamento de modelo de qualidade superior".
O que os testes mostraram
Meta testou o Agentic Self-Instruct em tarefas de pesquisa em ciência da computação. O sistema processou mais de 10 mil artigos do corpus S2ORC a partir de 2022 em diante e finalmente coletou 2117 pares pergunta-resposta que passaram em todos os filtros de qualidade.
O resultado-chave — não apenas um aumento na quantidade de dados, mas um aumento em seu poder discriminativo. No Self-Instruct CoT regular, modelos fracos e fortes mostravam resultados quase idênticos: 71,4% vs. 73,3%, uma lacuna de apenas 1,9 pontos percentuais. Em modo ágil, o weak solver caiu para 43,7%, e o strong solver subiu para 77,8%, expandindo a lacuna para 34 pontos percentuais.
Meta então otimizou não as perguntas em si, mas o "comportamento" do agente data scientist. Em um loop externo, um otimizador evolutivo executou novas versões do repositório de prompts e lógica de avaliação, mantendo apenas aquelas que melhoraram os resultados de validação. No total, 233 iterações foram executadas, com 126 aceitas, e a parcela de execuções bem-sucedidas aumentou de 12,8% para 42,4%.
Entre as melhorias descobiertas automaticamente estavam verificação mais rigorosa da relevância da pergunta para um artigo específico, proteção contra vazamento de solução no contexto, rejeição de pesos negativos em rubricas e tradução de critérios em formato JSON rigoroso.
E isso já muda a economia do pós-treinamento.
O que isso significa
O Autodata mostra que a próxima camada de competição em AI pode se deslocar de "quem treinou o modelo maior" para "quem construiu o melhor pipeline de dados". Para equipes aplicadas, isso é especialmente importante: em vez de anotação manual sem fim, você pode investir compute em um agente que por si mesmo seleciona exemplos difíceis, precisos e verdadeiramente úteis para fine-tuning e avaliação de modelos.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.