Inferência

Computação em Tempo de Teste

Computação em tempo de teste (TTC) é o orçamento computacional—ciclos de processamento, memória e tempo—que um modelo gasta durante inferência em vez de treinamento, permitindo que gaste mais esforço em problemas mais difíceis sem qualquer mudança em seus pesos.

Computação em tempo de teste (TTC) é a computação que um modelo de rede neural usa no tempo de inferência, ou seja, enquanto gera saídas para uma entrada dada, distinto do compute fixo gasto durante treinamento. Ao contrário do custo de treinamento, que é uma despesa única, TTC pode ser dimensionado dinamicamente por consulta: requisições fáceis recebem compute mínimo, enquanto as difíceis recebem substancialmente mais, permitindo alocação de recursos adaptativa sem retreinamento.

Os modelos aproveitam computação adicional em tempo de teste através de vários mecanismos. Amostragem best-of-N gera múltiplas respostas candidatas e seleciona a com pontuação mais alta usando um modelo de recompensa. Loops de auto-refinamento iterativos deixam um modelo criticar e revisar seu próprio rascunho. Mais proeminentemente, raciocínio estendido chain-of-thought produz traços de raciocínio interno longos—às vezes milhares de tokens—antes de emitir uma resposta final. Os modelos o1 (lançado em setembro de 2024) e o3 do OpenAI são os exemplos mais citados de arquiteturas explicitamente otimizadas para escalar TTC através de raciocínio aprendido por reforço.

O insight central é que o desempenho em tarefas de raciocínio difícil—matemática de competição, geração de código complexo, planejamento multi-passo—escala previsivelmente com computação em tempo de teste, similar a como desempenho de treinamento escala com computação de treinamento. Isso desloca uma alavanca de design chave da fase de treinamento (cara, infrequente) para a fase de inferência (sob demanda, preço por consulta), e permite aos provedores oferecer qualidade em camadas a custos em camadas.

Por 2026, dimensionamento de TTC tornou-se um eixo de design mainstream entre laboratórios de fronteira. Gemini 2.0 Flash Thinking do Google, DeepSeek-R1 e Claude 3.7 Sonnet do Anthropic com pensamento estendido todos expõem orçamentos explícitos de tokens de raciocínio. A pesquisa se concentra em estratégias de busca eficiente—como Monte Carlo Tree Search aplicado à geração de tokens e modelos de recompensa de processo que pontuam passos intermediários—para maximizar a qualidade de saída por unidade de computação gasta.

Exemplo

Quando encarregado de provar uma identidade combinatória não-trivial, um modelo configurado com um orçamento TTC alto gera mais de 800 tokens de raciocínio intermediário—explorando múltiplas estratégias de prova e verificando contradições—antes de se comprometer com uma resposta final verificada, alcançando precisão em benchmarks de nível de competição que uma resposta direta de passe único não consegue igualar.

Termos relacionados

Modelo de Raciocínio Cadeia de Pensamento (CoT)Inferência Leis de Scaling

← Glossário