Inferência

Inferência

Inferência é o processo de aplicar um modelo de machine learning treinado a novos dados de entrada para produzir previsões ou saídas. É a operação em tempo de implantação, distinta do treinamento, na qual nenhum parâmetro do modelo é atualizado.

Em machine learning, inferência refere-se à computação de forward pass na qual um modelo treinado recebe uma entrada e produz uma saída — um rótulo de classificação, uma sequência de texto gerada, um vetor de embedding, ou qualquer outra saída de modelo. Diferentemente do treinamento, inferência não modifica pesos do modelo; é uma operação somente-leitura contra um conjunto fixo de parâmetros. Em sistemas de produção, inferência executa continuamente e em escala, servindo usuários finais ou aplicações downstream.

Inferência para um modelo de linguagem baseado em transformer envolve tokenizar o texto de entrada, buscar embeddings de token, computar multi-head self-attention através da janela de contexto, passar ativações através de camadas feed-forward, e — para modelos generativos — amostragem iterativa do próximo token até um critério de parada ser atendido (autoregressive decoding). Otimizações chave incluem quantização (reduzindo precisão de peso de float 32-bit para inteiros 8-bit ou 4-bit), reuso de KV-cache (armazenando matrizes de chave e valor previamente computadas para evitar computação redundante através de passos de decoding), e batching de requisição (agrupando requisições concorrentes para maximizar utilização de GPU).

Economia de inferência domina a estrutura de custos de produtos de AI implantados. Na maioria de implantações em larga escala, custos cumulativos de inferência excedem custos únicos de treinamento porque inferência executa continuamente enquanto treinamento é periódico. Latência (tempo até primeiro token, tempo total de geração) e throughput (tokens por segundo por acelerador) são as métricas de desempenho primárias. Essas pressões dirigiram investimento em hardware otimizado para inferência — incluindo LPU da Groq, processadores wafer-scale da Cerebras, e GPUs NVIDIA H200 e Blackwell — assim como técnicas algorítmicas como speculative decoding, que usa um modelo de rascunho menor para propor tokens candidatos validados em paralelo pelo modelo principal.

A partir de 2026, inference serving é uma disciplina madura com frameworks open-source dedicados incluindo vLLM, TensorRT-LLM, e SGLang. Grandes provedores oferecem APIs de inferência precificadas por milhão de tokens. Inferência no dispositivo — executando modelos localmente em smartphones, laptops, ou hardware embarcado sem conectividade em nuvem — tornou-se prática com modelos quantizados com sub-10B parâmetros que cabem dentro de DRAM do consumidor, habilitando aplicações de preservação de privacidade e baixa latência.

Exemplo

Quando um usuário submete um prompt para uma API de modelo de linguagem hospedada em nuvem, a requisição é roteada para um servidor GPU que executa inferência: o prompt tokenizado passa pelas camadas transformer do modelo, e tokens de saída são transmitidos de volta ao cliente conforme são gerados.

Termos relacionados

Últimas notícias sobre o tema

← Glossário