Sakana AI aprendeu a adaptar instantaneamente modelos de linguagem sem fine-tuning
A empresa japonesa Sakana AI apresentou dois métodos revolucionários para adaptar grandes modelos de linguagem: Doc-to-LoRA e Text-to-LoRA. Ambas as…
Processado por IA de MarkTechPost; editado por Hamidun News
Um dos procedimentos mais caros e incômodos ao trabalhar com grandes modelos de linguagem é a sua adaptação para tarefas específicas. Quer que seu modelo compreenda sua documentação interna? Prepare-se para treinamento demorado e intensivo em recursos. Ou carregue toneladas de texto direto na janela de contexto, sacrificando velocidade e dinheiro a cada requisição. O laboratório Sakana AI, sediado em Tóquio, propôs um terceiro caminho que pode mudar a própria economia do trabalho com LLMs.
Em dois artigos de pesquisa recentes, a empresa apresentou métodos Doc-to-LoRA e Text-to-LoRA — abordagens construídas sobre as chamadas hiperrede. A ideia é elegante em sua simplicidade: em vez de retreinar o modelo a cada vez ou sobrecarregar sua janela de contexto, uma rede neural geradora especial cria instantaneamente um adaptador LoRA compacto que "absorve" o conhecimento necessário e se integra ao modelo base. O processo leva frações de segundo e não requer uma única etapa de descida de gradiente.
Para compreender a escala do problema que Sakana AI resolve, vale relembrar o estado atual das coisas. Hoje existem dois modos principais de fazer um modelo de linguagem trabalhar com novas informações. Primeiro — In-Context Learning, onde os dados necessários são simplesmente inseridos no prompt.
Isso é flexível, mas extremamente ineficiente: cada requisição custa mais, a janela de contexto é limitada, e o modelo na verdade não "memoriza" a informação — apenas a referencia temporariamente. O segundo caminho — Supervised Fine-Tuning ou Context Distillation, onde o modelo passa por treinamento completo em novos dados. O resultado é mais confiável, mas o processo leva horas ou dias, requer clusters de GPU e expertise em engenharia.
Para cada novo conjunto de dados, é necessário começar do zero.
Sakana AI propõe uma maneira elegante de contornar este compromisso através da amortização de custos. Doc-to-LoRA trabalha com documentos: você fornece como entrada um texto — documentação técnica, contrato legal, prontuário médico — e a hiperrede em uma única passagem gera um conjunto de adaptadores de baixo posto que essencialmente "codificam" o conteúdo do documento nos pesos do modelo. Depois disso, o modelo responde perguntas sobre o documento como se tivesse passado por treinamento completo, mas sem uma única iteração de treinamento.
Text-to-LoRA vai ainda mais longe: o adaptador é gerado não a partir de um documento, mas de uma instrução em linguagem natural. Você descreve em palavras como o modelo deve se comportar — e a hiperrede transforma essa descrição em mudanças concretas de pesos. Essencialmente, trata-se de adaptação zero-shot através de linguagem natural.
Tecnicamente, ambos os métodos se baseiam na arquitetura LoRA — Low-Rank Adaptation — que se tornou o padrão de facto para ajuste leve de LLMs. Em vez de modificar todos os bilhões de parâmetros do modelo, LoRA adiciona matrizes compactas de adaptadores que corrigem o comportamento do modelo com custo computacional mínimo. A inovação de Sakana AI é que esses adaptadores não precisam mais ser treinados — são gerados por uma rede neural separada treinada em vasta diversidade de tarefas de adaptação. A hiperrede aprende a "compreender" quais exatamente mudanças de pesos correspondem a um determinado conjunto de conhecimento ou padrão comportamental.
As consequências para a indústria podem ser bastante sérias. Atualmente, a customização de LLM é domínio de empresas com sérios times de ML e orçamentos para computação. Se a abordagem de Sakana AI escalar, a adaptação de modelos ficará disponível literalmente através de uma chamada de API: carregue um documento — obtenha um modelo especializado.
Isso pode mudar radicalmente o mercado de soluções de IA corporativa, onde a principal barreira não é a tecnologia em si, mas o custo e a complexidade de sua customização para um cliente específico. Além disso, a geração instantânea de adaptadores abre o caminho para personalização dinâmica: um modelo pode alternar entre "especialidades" em tempo real, adaptando-se a cada usuário ou cada tarefa em tempo real.
Porém, questões abertas permanecem. Qual é a qualidade de tais adaptadores gerados instantaneamente comparada aos resultados de treinamento completo em conjuntos de dados grandes e complexos? Como o método lida com informações contraditórias ou ruidosas? Como escala para modelos com centenas de bilhões de parâmetros? Sakana AI — uma empresa conhecida por sua abordagem biologicamente inspirada em IA e reivindicações ambiciosas, mas nem todos os seus desenvolvimentos foram testados na escala de produção real.
Não obstante, a direção estabelecida por Doc-to-LoRA e Text-to-LoRA parece ser um passo lógico seguinte na evolução do trabalho com modelos de linguagem. A indústria está gradualmente se afastando do paradigma de "treinar um modelo para tudo" em direção a sistemas flexíveis e modulares onde a adaptação acontece instantaneamente e de forma barata. Sakana AI parece ter encontrado um dos caminhos mais promissores para este futuro.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.