EAGLE 3.1: Como corrigir instabilidade na decodificação especulativa em LLMs
EAGLE 3.1 lançada conjuntamente pelo time EAGLE, vLLM e TorchSpec. O novo algoritmo de decodificação especulativa resolve problemas de instabilidade na inferênc

◐ Ouvir artigo
EAGLE 3.1 lançada conjuntamente pelo time EAGLE, vLLM e TorchSpec. O novo algoritmo de decodificação especulativa resolve problemas de instabilidade na inferência de produção em LLMs. Um bug crítico de deslocamento de atenção que reduzia a velocidade de geração de tokens foi corrigido.