BorisovAI testou MoE em uma RTX 4090 e mostrou por que a perplexidade compromete a avaliação de LLM
BorisovAI conduziu 22 experimentos com uma arquitetura MoE em que novos especialistas são acoplados a um modelo congelado como plugins. Em uma única RTX…
Processado por IA de Habr AI; editado por Hamidun News
BorisovAI publicou uma análise de 22 experimentos com arquitetura MoE, em que novos especialistas são conectados sobre um modelo de linguagem congelado como plugins. Em uma única RTX 4090, o esquema demonstrou uma imagem de engenharia quase ideal: degradação zero de habilidades antigas, roteamento preciso e redução notável de perplexidade. Mas quando o sistema foi testado em um benchmark matemático, descobriu-se que uma métrica bonita poderia levar em uma direção completamente errada.
Como o esquema foi construído
O pesquisador congelou completamente o modelo base e adicionou um pequeno especialista treinável a cada camada MLP, além de um roteador no topo com aproximadamente 37 mil parâmetros. A lógica é simples: o backbone não é tocado, a nova habilidade é treinada separadamente e, em seguida, apenas o roteador é ajustado para enviar os tokens certos para o especialista certo. O treinamento de um único novo domínio levou cerca de meia hora: aproximadamente 15 minutos para o especialista isolado e outros 15 minutos para integração no sistema geral. Em três escalas, o esquema se mostrou muito convincente e com quase nenhuma troca:
- GPT-2 124M com 4 domínios reduziu a perplexidade em 33,4%
- Pythia-410M com 6 domínios reduziu a perplexidade em 34,3%
- Pythia-1B com 8 domínios reduziu a perplexidade em 31,2%
- A precisão de roteamento atingiu 96%, e a degradação de habilidades antigas permaneceu em 0,000%
Além disso, o autor testou várias técnicas populares frequentemente recomendadas para MoE. Penalidades de balanceamento de carga pioraram os resultados em 11–27%, e o treinamento conjunto de especialistas e roteador levou ao colapso da qualidade. O balanceamento sem perda funcionou melhor: mantinha todos os especialistas "vivos" sem uma perda adicional separada. Neste estágio, tudo parecia um argumento forte para LLMs modulares, onde novas capacidades poderiam ser conectadas sem retreinamento completo.
Onde a métrica falhou
Os problemas começaram quando a arquitetura foi transferida para Qwen 2.5 3B e um especialista matemático foi adicionado. Pelas métricas internas, tudo novamente estava perfeito: a perplexidade em textos matemáticos caiu 23,9%, a lacuna entre domínios cresceu 64,9 vezes, e o roteador selecionava o especialista certo com quase nenhum erro. Mas no GSM8K, que testa a capacidade de resolver problemas de palavras escolares, o modelo caiu de 74,4% para 65,8%.
"Um modelo que fala a linguagem da matemática não tem absolutamente
nenhuma capacidade de resolver problemas."
Esta é a conclusão-chave de todo o trabalho. O especialista treinado em livros didáticos e artigos realmente dominou as estatísticas da linguagem matemática: onde as fórmulas geralmente aparecem, quais termos vêm próximos e qual é a aparência do texto "correto" dessa área. Mas GSM8K requer não apenas reconhecimento de estilo, mas cadeias de raciocínio. Portanto, a redução de perplexidade aqui mediu não uma melhoria real no pensamento, mas simplesmente uma modelagem melhor de texto específico do domínio. O pesquisador verificou separadamente alternativas—descongelar camadas superiores, treinamento conjunto e um esquema de duas fases—mas todas as opções permaneceram no mesmo menos 8,4–8,6 pontos percentuais.
O que funcionou melhor
Uma virada viável veio após auto-destilação. Em vez de textos matemáticos brutos, o especialista foi treinado em soluções passo a passo que o próprio modelo base já conseguia acertar. Para isso, 750 tarefas GSM8K foram selecionadas: o modelo resolveu 638 delas, e a partir dessas soluções um conjunto de dados de 119 mil tokens foi montado.
Isso é 33 vezes menor do que o corpus de 4 milhões de tokens de livros didáticos e artigos, mas o formato se mostrou muito mais próximo da inferência real. O resultado inverteu as expectativas. Após esse treinamento, GSM8K cresceu para 75,5%: isso é 1,1 pontos percentuais acima do modelo base e 9,7 pontos melhor do que a variante de texto matemático bruto.
Enquanto isso, a perplexidade, ao contrário, piorou 17,8%.
Além disso, descobriu-se que até mesmo o empacotamento de dados importa: o formato "pergunta/resposta" deu outros 2–3 pontos a mais do que o formato mais acadêmico "problema/solução". Em outras palavras, é mais útil treinar o especialista para a forma de uso futuro, não para um corpus abstratamente "de alta qualidade". Uma tentativa de transformar essa abordagem em um ciclo de auto-melhoria não decolou.
As primeiras execuções sugeriram crescimento de 75,5% para 76,0%, mas após fixar a seed e expandir a amostra, o efeito se mostrou ruído estatístico. No início frio, o novo especialista rapidamente atingiu um platô, e no início quente, a qualidade até caiu porque as mesmas tarefas se repetiram muito entre ciclos e o especialista se ajustou demais. O label smoothing separadamente falhou: em matemática custou outros 9 pontos.
O que isso significa
Para desenvolvedores de LLM, existem imediatamente duas conclusões práticas aqui. Primeiro, a arquitetura modular com especialistas conectáveis pode de fato adicionar habilidades de domínio sem esquecimento catastrófico. Segundo, avaliar esses sistemas por perplexidade é perigoso: pode melhorar precisamente quando o modelo começa a raciocinar pior. Se a tarefa envolve lógica, código ou matemática, o critério principal deve ser benchmarks comportamentais, não apenas métricas linguísticas bonitas.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.