Como funciona a seleção de tokens em redes neurais: logits, temperatura e top-p

A rede neural seleciona a próxima palavra através de logits e softmax. A temperatura controla a aleatoriedade: baixa gera respostas precisas, alta gera…

Redação da Hamidun News

Monitoramento de AI · Machine Learning Mastery

29 de mai. de 2026· 2 min

Processado por IA de Machine Learning Mastery; editado por Hamidun News

Como funciona a seleção de tokens em redes neurais: logits, temperatura e top-p — Fonte: Machine Learning Mastery. Colagem: Hamidun News.

◐ Ouvir artigo

Quando um modelo de linguagem gera texto, enfrenta uma tarefa fundamental: escolher a próxima palavra entre milhares de candidatos. Essa escolha não é acidental, mas governada por mecanismos probabilísticos. Compreender logits, temperatura e top-p é a chave para controlar o comportamento de LLMs.

O que são logits e softmax

A rede neural calcula uma pontuação numérica — logit — para cada token possível. Este é o sinal bruto da última camada da rede. A palavra "criatividade" pode receber um logit de 5.2, enquanto "telefone" recebe 2.1. A função softmax converte esses números em probabilidades (de 0 a 1) que somam 1.

Imagine: o modelo processa "aprendizado de máquina é". Ele calcula logits para todas as palavras do vocabulário. Após softmax, obtém-se uma distribuição: "ciência" = 35%, "arte" = 8%, "pinguim" = 0.001%. O modelo seleciona aleatoriamente dessa distribuição — escolhe variantes prováveis com frequência, variantes improváveis raramente.

Temperatura — regulador de comportamento

Temperatura é um multiplicador para logits antes de softmax. A matemática é simples, mas o efeito é poderoso:

T < 1 (por exemplo, 0.3) — coloca o modelo no lado "gelado". A distribuição se torna afiada, variantes improváveis recebem probabilidades insignificantes. O modelo seleciona quase deterministicamente, respostas são previsíveis e precisas. Ideal para código, fatos, instruções.
T = 1 — comportamento padrão, logits são usados como estão
T > 1 (por exemplo, 1.5–2.0) — coloca no lado "quente". A distribuição se torna mais uniforme, variantes improváveis recebem uma chance. O modelo seleciona mais aleatoriamente. Ideal para escrita criativa, mas corre o risco de gerar erros ou alucinações. Temperatura alta torna o modelo aventureiro, temperatura baixa o torna conservador.

Top-P — amostragem inteligente

Top-p (nucleus sampling) resolve o problema: como impedir que o modelo diga uma completa bobagem, mas deixar liberdade? O algoritmo ordena tokens por probabilidade e pega tantos top-tokens até que sua probabilidade cumulativa atinja p (geralmente 0.9).

Exemplo: se top-p = 0.9 e a distribuição é assim:

"ciência" = 40%
"caminho" = 30%
"conhecimento" = 15%
"liberdade" = 10%
"pinguim" = 5%

O modelo pegará os primeiros quatro variantes (40+30+15+10=95%) e descartará o "pinguim". Top-p é dinâmico: em um contexto pode selecionar 5 variantes, em outro — 200.

O que isso significa

Esses três parâmetros não são magia, mas ferramentas de controle. O desenvolvedor escolhe temperatura e top-p dependendo da tarefa: geração de código requer temperatura baixa (confiabilidade é mais importante que criatividade), enquanto escrever uma história requer temperatura alta (diversidade). Compreender esses mecanismos transforma o trabalho com LLMs de uma caixa preta em uma tarefa de engenharia.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

Agendar consultoria grátis →