Nous Research acelerou o pré-treinamento de LLM em 2,5x sem mudar a arquitetura
A Nous Research desenvolveu o Token Superposition Training (TST), um método de pré-treinamento em duas fases que acelera o treinamento de LLM em 2,5x com o mesm

A Nous Research desenvolveu Token Superposition Training (TST) — um método inovador de duas fases de pré-treinamento que reduz o tempo de treinamento de grandes modelos de linguagem em 2,5 vezes com o mesmo custo computacional, sem exigir nenhuma mudança em arquitetura, tokenizador ou comportamento de inferência.
Como Funciona o Token Superposition Training
O método é baseado em uma ideia simples, mas eficaz: na primeira fase de pré-treinamento, os embeddings de tokens vizinhos são agregados em grupos, ou "bags". Em vez de prever cada token separadamente, o modelo trabalha com representações agregadas de sequências. Isso permite que ele processe informações em blocos grandes e acelere significativamente o cálculo de gradientes durante a retropropagação. Essencialmente, a primeira fase ensina ao modelo como encontrar padrões em um nível mais alto de abstração.
A segunda fase de treinamento é ligeiramente mais curta em duração — o modelo faz a transição para a predição padrão do próximo token, como qualquer LLM normalmente faz. Neste estágio, ele se adapta rapidamente à tarefa final e recupera eventuais perdas de qualidade que possam ter ocorrido na primeira fase. A transição entre as fases é suave e natural para a arquitetura de rede neural — não há artefatos estranhos ou incompatibilidades.
A principal vantagem do TST é que o método não toca na arquitetura interna do modelo. O número de parâmetros permanece inalterado, o ferramental circundante e o ecossistema não mudam — o mesmo número de pesos, o mesmo tokenizador, o mesmo otimizador Adam, SGD ou qualquer outro. Durante a inferência, o modelo é totalmente compatível com os sistemas de implantação existentes. Isso é crítico para aplicações industriais, onde alterar a arquitetura pode exigir reescrever muito código.
Modelos Usados para Testar a Nova Técnica
A Nous Research testou TST em modelos de diferentes escalas e arquiteturas para verificar a universalidade da abordagem:
- 270M parâmetros (mini-modelos para experimentos rápidos)
- 600M parâmetros (tamanho padrão para projetos de pesquisa)
- 3B parâmetros (arquitetura densa, dense models)
- 10B parâmetros com arquitetura Mixture of Experts (MoE)
Em todas estas escalas, o método mostrou uma aceleração consistente de 2,5 vezes com o mesmo custo computacional, medido em FLOP (operações de ponto flutuante). Os resultados são encorajadores: este não é um truque de laboratório que funciona apenas em um tamanho específico de modelo ou arquitetura, mas uma abordagem universal que escala bem. Isso significa que pode ser aplicado amplamente.
Por Que Isso É Crítico para a Indústria
O pré-treinamento de LLM é o estágio mais intensivo em recursos e economicamente custoso do desenvolvimento de modelos. Treinar um único modelo grande requer milhares de horas de operação de cluster de GPU, e os custos de eletricidade e equipamento são medidos em milhões de dólares. Uma aceleração de 2,5 vezes não é apenas uma melhoria de 5-10%, mas uma redução séria e alcançável nas despesas totais que impacta diretamente a economia do desenvolvimento.
Para startups e pequenos times, isso significa a capacidade de treinar modelos de alta qualidade e competitivos com um orçamento inicial menor. Para grandes laboratórios como Meta, Mistral ou OpenAI — a capacidade de experimentar com muitas mais variantes de arquitetura, hiperparâmetros e estratégias de treinamento na mesma infraestrutura. Isso expande os limites da experimentação, acelera o ritmo da inovação e permite testar ideias novas mais rapidamente.
O Que Isso Significa
Token Superposition Training prova que mesmo em uma área bem estudada de pré-treinamento, existem formas simples mas poderosas de economizar computação. Isso pode inspirar outros pesquisadores a procurar otimizações similares em diferentes estágios do treinamento do modelo — desde a inicialização de pesos até cronogramas adaptativos de taxa de aprendizado. Para a indústria — um sinal positivo de que a fronteira entre pesquisa fundamental e aplicação industrial está ficando cada vez mais difusa, e boas ideias rapidamente encontram seu caminho para a produção.