Como funciona a seleção de tokens em redes neurais: logits, temperatura e top-p
A rede neural seleciona a próxima palavra através de logits e softmax. A temperatura controla a aleatoriedade: baixa gera respostas precisas, alta gera…
Processado por IA de Machine Learning Mastery; editado por Hamidun News
Quando um modelo de linguagem gera texto, enfrenta uma tarefa fundamental: escolher a próxima palavra entre milhares de candidatos. Essa escolha não é acidental, mas governada por mecanismos probabilísticos. Compreender logits, temperatura e top-p é a chave para controlar o comportamento de LLMs.
O que são logits e softmax
A rede neural calcula uma pontuação numérica — logit — para cada token possível. Este é o sinal bruto da última camada da rede. A palavra "criatividade" pode receber um logit de 5.2, enquanto "telefone" recebe 2.1. A função softmax converte esses números em probabilidades (de 0 a 1) que somam 1.
Imagine: o modelo processa "aprendizado de máquina é". Ele calcula logits para todas as palavras do vocabulário. Após softmax, obtém-se uma distribuição: "ciência" = 35%, "arte" = 8%, "pinguim" = 0.001%. O modelo seleciona aleatoriamente dessa distribuição — escolhe variantes prováveis com frequência, variantes improváveis raramente.
Temperatura — regulador de comportamento
Temperatura é um multiplicador para logits antes de softmax. A matemática é simples, mas o efeito é poderoso:
- T < 1 (por exemplo, 0.3) — coloca o modelo no lado "gelado". A distribuição se torna afiada, variantes improváveis recebem probabilidades insignificantes. O modelo seleciona quase deterministicamente, respostas são previsíveis e precisas. Ideal para código, fatos, instruções.
- T = 1 — comportamento padrão, logits são usados como estão
- T > 1 (por exemplo, 1.5–2.0) — coloca no lado "quente". A distribuição se torna mais uniforme, variantes improváveis recebem uma chance. O modelo seleciona mais aleatoriamente. Ideal para escrita criativa, mas corre o risco de gerar erros ou alucinações. Temperatura alta torna o modelo aventureiro, temperatura baixa o torna conservador.
Top-P — amostragem inteligente
Top-p (nucleus sampling) resolve o problema: como impedir que o modelo diga uma completa bobagem, mas deixar liberdade? O algoritmo ordena tokens por probabilidade e pega tantos top-tokens até que sua probabilidade cumulativa atinja p (geralmente 0.9).
Exemplo: se top-p = 0.9 e a distribuição é assim:
- "ciência" = 40%
- "caminho" = 30%
- "conhecimento" = 15%
- "liberdade" = 10%
- "pinguim" = 5%
O modelo pegará os primeiros quatro variantes (40+30+15+10=95%) e descartará o "pinguim". Top-p é dinâmico: em um contexto pode selecionar 5 variantes, em outro — 200.
O que isso significa
Esses três parâmetros não são magia, mas ferramentas de controle. O desenvolvedor escolhe temperatura e top-p dependendo da tarefa: geração de código requer temperatura baixa (confiabilidade é mais importante que criatividade), enquanto escrever uma história requer temperatura alta (diversidade). Compreender esses mecanismos transforma o trabalho com LLMs de uma caixa preta em uma tarefa de engenharia.
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.