Cientistas criam MEMO — framework para expandir a memória de LLMs sem retreinamento
Pesquisadores do MIT, NUS e A*STAR criaram MEMO — um framework que permite que LLMs expandam conhecimentos através de um módulo de memória separado. Os…
Processado por IA de MarkTechPost; editado por Hamidun News
Pesquisadores da Universidade Nacional de Cingapura (NUS), MIT e A*STAR apresentaram MEMO — um framework modular que permite que modelos de linguagem aprendam rapidamente com novos conhecimentos sem retreinar o modelo principal.
O Problema da Escalabilidade do Conhecimento
Os modernos grandes modelos de linguagem são treinados em enormes conjuntos de dados e armazenam o conhecimento adquirido em seus parâmetros. Quando é necessário adicionar novos conhecimentos — por exemplo, dados de bases corporativas, referências médicas ou informações atualizadas sobre eventos recentes — a abordagem tradicional requer retreinamento completo do modelo. Isso significa meses de computação, milhões de dólares em custos e consumo de energia massivo. Além disso, durante o retreinamento, o modelo principal pode "esquecer" o que já sabia — um fenômeno conhecido como esquecimento catastrófico.
Como o MEMO Funciona
MEMO oferece uma solução elegante: um módulo treinável separado, chamado de 'modelo de memória'. Em vez de alterar os parâmetros do LLM principal, os novos conhecimentos são codificados neste módulo dedicado, que funciona como uma camada de memória adicional, expandindo as capacidades do modelo sem precisar modificá-lo.
A arquitetura do MEMO consiste em vários componentes modulares:
- LLM principal (congelado) — gera texto normalmente, sem alterações nos parâmetros
- Modelo de memória — um módulo treinável compacto que memoriza novos fatos e conhecimentos do corpus
- Módulo de integração — conecta a memória ao modelo principal durante a geração de respostas para o usuário
- Mecanismo de busca — encontra fatos relevantes da memória no momento da inferência para contextualização
- Pipeline de treinamento — atualiza apenas os parâmetros do módulo de memória, deixando o LLM intocado
Vantagens Práticas
Essa abordagem oferece várias vantagens-chave para empresas e pesquisadores. Em primeiro lugar, há uma economia radical de recursos computacionais — é necessário retreinar apenas o módulo de memória compacto, e não um LLM de muitos bilhões com centenas de bilhões de parâmetros. Em segundo lugar, o modelo principal permanece estável: seu comportamento original e conhecimentos previamente adquiridos não se deterioram ao adicionar novos fatos. Em terceiro lugar, é possível atualizar conhecimentos em horas ou dias, em vez de meses de ciclos de retreinamento laboriosos.
Para aplicações corporativas, isso significa a capacidade de adaptar rapidamente e com baixo custo LLMs prontos para suas tarefas — adicionar conhecimentos específicos do domínio, atualizar informações em tempo real em resposta a novos eventos, criar variações personalizadas de modelos para diferentes produtos e clientes.
O Que Isso Significa
MEMO é mais um passo importante em direção a arquiteturas modulares para IA. Em vez de considerar um grande modelo de linguagem como uma caixa preta indivisível que precisa ser completamente retreinada a cada atualização de conhecimento, pesquisadores mostram que memória e capacidades originais podem ser separadas. Isso abre o caminho para formas mais flexíveis, baratas e eficientes de desenvolver e adaptar modelos de linguagem.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.