Machine Learning Mastery→ original

Como funciona a seleção de tokens em redes neurais: logits, temperatura e top-p

A rede neural seleciona a próxima palavra através de logits e softmax. A temperatura controla a aleatoriedade: baixa gera respostas precisas, alta gera…

Processado por IA de Machine Learning Mastery; editado por Hamidun News
Como funciona a seleção de tokens em redes neurais: logits, temperatura e top-p
Fonte: Machine Learning Mastery. Colagem: Hamidun News.
◐ Ouvir artigo

Quando um modelo de linguagem gera texto, enfrenta uma tarefa fundamental: escolher a próxima palavra entre milhares de candidatos. Essa escolha não é acidental, mas governada por mecanismos probabilísticos. Compreender logits, temperatura e top-p é a chave para controlar o comportamento de LLMs.

O que são logits e softmax

A rede neural calcula uma pontuação numérica — logit — para cada token possível. Este é o sinal bruto da última camada da rede. A palavra "criatividade" pode receber um logit de 5.2, enquanto "telefone" recebe 2.1. A função softmax converte esses números em probabilidades (de 0 a 1) que somam 1.

Imagine: o modelo processa "aprendizado de máquina é". Ele calcula logits para todas as palavras do vocabulário. Após softmax, obtém-se uma distribuição: "ciência" = 35%, "arte" = 8%, "pinguim" = 0.001%. O modelo seleciona aleatoriamente dessa distribuição — escolhe variantes prováveis com frequência, variantes improváveis raramente.

Temperatura — regulador de comportamento

Temperatura é um multiplicador para logits antes de softmax. A matemática é simples, mas o efeito é poderoso:

  • T < 1 (por exemplo, 0.3) — coloca o modelo no lado "gelado". A distribuição se torna afiada, variantes improváveis recebem probabilidades insignificantes. O modelo seleciona quase deterministicamente, respostas são previsíveis e precisas. Ideal para código, fatos, instruções.
  • T = 1 — comportamento padrão, logits são usados como estão
  • T > 1 (por exemplo, 1.5–2.0) — coloca no lado "quente". A distribuição se torna mais uniforme, variantes improváveis recebem uma chance. O modelo seleciona mais aleatoriamente. Ideal para escrita criativa, mas corre o risco de gerar erros ou alucinações. Temperatura alta torna o modelo aventureiro, temperatura baixa o torna conservador.

Top-P — amostragem inteligente

Top-p (nucleus sampling) resolve o problema: como impedir que o modelo diga uma completa bobagem, mas deixar liberdade? O algoritmo ordena tokens por probabilidade e pega tantos top-tokens até que sua probabilidade cumulativa atinja p (geralmente 0.9).

Exemplo: se top-p = 0.9 e a distribuição é assim:

  • "ciência" = 40%
  • "caminho" = 30%
  • "conhecimento" = 15%
  • "liberdade" = 10%
  • "pinguim" = 5%

O modelo pegará os primeiros quatro variantes (40+30+15+10=95%) e descartará o "pinguim". Top-p é dinâmico: em um contexto pode selecionar 5 variantes, em outro — 200.

O que isso significa

Esses três parâmetros não são magia, mas ferramentas de controle. O desenvolvedor escolhe temperatura e top-p dependendo da tarefa: geração de código requer temperatura baixa (confiabilidade é mais importante que criatividade), enquanto escrever uma história requer temperatura alta (diversidade). Compreender esses mecanismos transforma o trabalho com LLMs de uma caixa preta em uma tarefa de engenharia.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…