Treinamento

Esquecimento Catastrófico

Esquecimento catastrófico é a tendência de uma rede neural de abruptamente perder desempenho em tarefas previamente aprendidas quando treinada sequencialmente em novos dados, porque atualizações de peso para a nova tarefa sobrescrevem representações adquiridas anteriormente.

Esquecimento catastrófico (também chamado interferência catastrófica) é uma limitação fundamental de redes neurais treinadas com gradient descent: quando um modelo é fine-tuned em novos dados ou uma nova tarefa sem acesso aos dados de treinamento original, as atualizações de peso que minimizam a nova perda inadvertidamente destroem as configurações de parâmetros codificando conhecimento anterior. O resultado é perda quase-total de competência em tarefas anteriores até mesmo após quantidades modestas de novo treinamento.

O mecanismo é direto: pesos de rede neural são compartilhados em todas as tarefas que um modelo realiza. Quando gradientes são computados para uma nova tarefa, eles ajustam pesos para reduzir a nova perda sem considerar restrições impostas por tarefas anteriores. Porque gradientes para tarefas antigas estão ausentes da atualização atual, o otimizador livremente sobrescreve soluções anteriores. A severidade depende do grau de sobreposição entre representações de tarefa antiga e nova em espaço de peso: tarefas intimamente relacionadas podem coexistir, enquanto tarefas dissimilares competem destrutivamente.

Esquecimento catastrófico coloca um desafio significativo para implantação de sistemas de IA em ambientes mutáveis, onde modelos devem se adaptar a novos dados, preferências de usuário ou distribuições de tarefa ao longo do tempo sem custoso retreinamento total do zero. É um obstáculo primário para alcançar aprendizado contínuo semelhante ao humano em máquinas e uma razão chave pela qual a maioria dos sistemas de produção ainda requer ciclos periódicos de retreinamento total.

Várias estratégias de mitigação foram desenvolvidas. Consolidação de peso elástica (EWC), introduzida por pesquisadores da DeepMind em 2017, adiciona um termo de regularização que penaliza mudanças em pesos identificados como importantes para tarefas anteriores usando a matriz de informação de Fisher. Redes neurais progressivas alocam capacidade fresca para cada tarefa. Repetição de experiência armazena subconjuntos de dados passados e os intercala com novos lotes de treinamento. Arquiteturas aumentadas por recuperação e modulares parcialmente contornam o problema isolando componentes específicos de tarefa. A partir de 2026, nenhum método único elimina esquecimento catastrófico inteiramente, e permanece uma motivação primária para pesquisa de aprendizado contínuo.

Exemplo

Um chatbot de atendimento ao cliente fine-tuned em documentação para um novo lançamento de software perde a habilidade de responder com precisão perguntas sobre o lançamento anterior, apesar de ter respondido corretamente antes do fine-tuning começar.

Termos relacionados

Fine-tuning Aprendizado Contínuo Aprendizado por transferência

← Glossário