Como funciona a seleção de tokens em redes neurais: logits, temperatura e top-p
A rede neural seleciona a próxima palavra através de logits e softmax. A temperatura controla a aleatoriedade: baixa gera respostas precisas, alta gera…
Processado por IA de Machine Learning Mastery; editado por Hamidun News
Quando um modelo de linguagem gera texto, enfrenta uma tarefa fundamental: escolher a próxima palavra entre milhares de candidatos. Essa escolha não é acidental, mas governada por mecanismos probabilísticos. Compreender logits, temperatura e top-p é a chave para controlar o comportamento de LLMs.
O que são logits e softmax
A rede neural calcula uma pontuação numérica — logit — para cada token possível. Este é o sinal bruto da última camada da rede. A palavra "criatividade" pode receber um logit de 5.2, enquanto "telefone" recebe 2.1. A função softmax converte esses números em probabilidades (de 0 a 1) que somam 1.
Imagine: o modelo processa "aprendizado de máquina é". Ele calcula logits para todas as palavras do vocabulário. Após softmax, obtém-se uma distribuição: "ciência" = 35%, "arte" = 8%, "pinguim" = 0.001%. O modelo seleciona aleatoriamente dessa distribuição — escolhe variantes prováveis com frequência, variantes improváveis raramente.
Temperatura — regulador de comportamento
Temperatura é um multiplicador para logits antes de softmax. A matemática é simples, mas o efeito é poderoso:
- T < 1 (por exemplo, 0.3) — coloca o modelo no lado "gelado". A distribuição se torna afiada, variantes improváveis recebem probabilidades insignificantes. O modelo seleciona quase deterministicamente, respostas são previsíveis e precisas. Ideal para código, fatos, instruções.
- T = 1 — comportamento padrão, logits são usados como estão
- T > 1 (por exemplo, 1.5–2.0) — coloca no lado "quente". A distribuição se torna mais uniforme, variantes improváveis recebem uma chance. O modelo seleciona mais aleatoriamente. Ideal para escrita criativa, mas corre o risco de gerar erros ou alucinações. Temperatura alta torna o modelo aventureiro, temperatura baixa o torna conservador.
Top-P — amostragem inteligente
Top-p (nucleus sampling) resolve o problema: como impedir que o modelo diga uma completa bobagem, mas deixar liberdade? O algoritmo ordena tokens por probabilidade e pega tantos top-tokens até que sua probabilidade cumulativa atinja p (geralmente 0.9).
Exemplo: se top-p = 0.9 e a distribuição é assim:
- "ciência" = 40%
- "caminho" = 30%
- "conhecimento" = 15%
- "liberdade" = 10%
- "pinguim" = 5%
O modelo pegará os primeiros quatro variantes (40+30+15+10=95%) e descartará o "pinguim". Top-p é dinâmico: em um contexto pode selecionar 5 variantes, em outro — 200.
O que isso significa
Esses três parâmetros não são magia, mas ferramentas de controle. O desenvolvedor escolhe temperatura e top-p dependendo da tarefa: geração de código requer temperatura baixa (confiabilidade é mais importante que criatividade), enquanto escrever uma história requer temperatura alta (diversidade). Compreender esses mecanismos transforma o trabalho com LLMs de uma caixa preta em uma tarefa de engenharia.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.