Together AI Blog→ original

Together AI apresenta ATLAS: especulador que acelera LLM em 4 vezes

A Together AI apresentou o ATLAS — um especulador adaptativo baseado em machine learning que acelera inferência em LLM em 4 vezes sem configuração manual. O sis

Processado por IA de Together AI Blog; editado por Hamidun News
Together AI apresenta ATLAS: especulador que acelera LLM em 4 vezes
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A Together AI apresentou o ATLAS (Sistema de Especulador com Aprendizado Adaptativo) — uma tecnologia revolucionária de aceleração de inferência em LLM que melhora automaticamente conforme você a utiliza. O sistema atinge 500 tokens por segundo no DeepSeek-V3.1 e 460 no Kimi-K2 — isso é praticamente 4x de aceleração sem configuração manual. Os resultados foram obtidos em NVIDIA HGX B200 usando tráfego real do benchmark Arena Hard.

O que é decodificação especulativa

A decodificação especulativa é um dos métodos mais poderosos para acelerar a geração de texto em LLMs. Em vez da abordagem padrão, onde o modelo gera um token por vez em passagens sequenciais, o sistema usa um especulador mais rápido (modelo auxiliar) que propõe vários tokens de uma vez. Em seguida, o modelo principal (alvo) verifica todos eles em paralelo em uma única passagem direta.

A qualidade da saída permanece idêntica à decodificação normal (matematicamente garantido), mas a velocidade aumenta significativamente. Se o especulador adivinhar corretamente (alto coeficiente de aceitação α), o sistema processa vários tokens de uma vez em vez de um. Na prática, isso significa uma redução significativa no tempo até o primeiro token e aceleração de toda a geração.

Como o ATLAS difere das outras soluções

Os especuladores padrão são treinados uma vez em uma carga de trabalho geral e funcionam da mesma forma em todos os lugares. Os especuladores especializados (custom speculators) são treinados em dados específicos da empresa, mas apenas para um momento específico no tempo. Quando a carga de trabalho evolui — a base de código cresce, os padrões de tráfego mudam, a distribuição de solicitações se altera, surgem novos tipos de usuários — até os especuladores altamente otimizados começam a ficar para trás.

O ATLAS resolve este problema de forma fundamentalmente diferente. O sistema aprende continuamente (continual learning) conforme você o utiliza, adaptando-se ao tráfego real e ao comportamento do modelo alvo em tempo real. Quanto mais você trabalha com o serviço, melhor o ATLAS prevê as próximas ações do modelo principal, e maior é o coeficiente de aceitação.

Isso cria um ciclo de feedback positivo: cada nova solicitação é um exemplo de treinamento que melhora o especulador.

Resultados na prática

A Together AI demonstrou os resultados em equipamento industrial NVIDIA HGX B200 com tráfego real:

  • DeepSeek-V3.1: 500 TPS (tokens por segundo) — 2,65x mais rápido que a decodificação padrão
  • Kimi-K2-0905: 460 TPS — também um ganho significativo
  • Comparação com Groq: O ATLAS em modo totalmente adaptado supera o desempenho do equipamento especializado da Groq
  • Aceleração de 4x em comparação com a solução base sem otimização

A eficiência é alcançada equilibrando dois parâmetros principais: o coeficiente de aceitação (α) — uma medida de com que frequência o modelo principal concorda com as sugestões do especulador — e a latência relativa (c) entre a velocidade do especulador e do modelo alvo. O ATLAS encontra automaticamente o ponto ideal, onde o especulador funciona muito rapidamente, mas suas previsões são precisas o suficiente para uma aceitação alta.

Integração no Together Turbo

O ATLAS está integrado no Together Turbo — um pacote de soluções de engenharia para aceleração de LLM da Together AI. Funciona em paralelo com o especulador proprietário e oferece suporte ao uso de especuladores personalizados. A principal diferença: o ATLAS requer zero configuração manual de parâmetros. Os usuários obtêm melhorias de desempenho automáticas simplesmente ao usar a plataforma. Isso é especialmente crítico para equipes em crescimento, onde a carga de trabalho não é estática. Na fase de crescimento, quando as solicitações chegam de diferentes tipos de usuários, a lógica de negócios evolui constantemente e os requisitos dos modelos mudam, as otimizações antigas frequentemente se tornam desatualizadas em semanas ou meses. O ATLAS se atualiza continuamente por si só.

O que isso significa

A aceleração de inferência em LLM passa de uma tarefa de engenharia única para um recurso dinâmico incorporado do serviço. Desenvolvedores e usuários obtêm respostas cada vez mais rápidas simplesmente ao usar a plataforma, sem qualquer intervenção manual. Para startups, agências e empresas, isso significa uma redução real nos custos de processamento de solicitações para grandes modelos em produção.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…