Como uma única instrução de sistema transforma um LLM em uma ferramenta confiável: testes em Qwen e DeepSeek
Alucinações de LLM não são uma sentença de morte. Um único prompt de sistema pode transformar um modelo de um 'mentiroso confiante' em uma ferramenta de…
Processado por IA de Habr AI; editado por Hamidun News
Grandes modelos de linguagem mentem lindamente. Não porque sejam maldosos — simplesmente porque foram treinados para continuar texto, não para dizer a verdade. Onde um modelo não tem os dados necessários, ele gera algo plausível e o apresenta com a certeza de um especialista.
Para tarefas aplicadas — assistentes corporativos, ferramentas analíticas, sistemas de apoio à decisão — tal comportamento é inaceitável. Um erro entregue com confiança é pior que um erro com ressalva. O autor de um artigo no Habr propôs uma metáfora simples mas eficaz: LLMs precisam de um exoesqueleto.
Não fine-tuning, não uma rodada de RLHF, não treinamento custoso — uma única instrução de sistema que estabelece ao modelo regras comportamentais rigorosas em situações de incerteza. Os testes foram conduzidos em dois dos modelos de código aberto mais populares com forte suporte ao idioma russo: Qwen (série da Alibaba) e DeepSeek — ambos são ativamente usados em produtos russos precisamente pela sua acessibilidade e qualidade. A essência do "exoesqueleto" é impedir que o modelo seja excessivamente confiante onde é incerto.
A instrução do sistema prescreve várias regras-chave. Primeira: reconheça explicitamente a incerteza — não passe por ela em silêncio, mas diga diretamente "eu não sei" ou "não tenho dados suficientes". Segunda: esclareça o pedido se for ambíguo, em vez de escolher uma interpretação e responder a ela.
Terceira: distinga claramente entre fatos em que o modelo tem confiança e aqueles que apenas assume. Quarta: recuse responder em áreas onde o risco de erro é alto e não há maneira de verificar a informação dentro do próprio modelo. Na teoria, isso soa trivial.
Na prática — funciona. Após adicionar a instrução, Qwen e DeepSeek começaram a reconhecer muito mais frequentemente os limites de seu conhecimento: em cenários de teste com contexto intencionalmente insuficiente ou contraditório, os modelos pararam de "inventar" e começaram a solicitar esclarecimentos ou marcar explicitamente a incerteza. O nível de alucinações confiantes nesses cenários caiu notavelmente.
Por que isso não é óbvio? Porque por padrão, LLMs são treinados para dar uma resposta completa e confiante — precisamente por isso receberam altas notas em RLHF. Um avaliador humano prefere instintivamente texto elaborado e confiante a um simples "eu não sei".
O modelo aprendeu essa preferência. Como resultado, tem comportamento embutido diretamente oposto ao que é necessário em produção real, onde o custo de um erro é medido em reputação ou dinheiro. Uma instrução de sistema é uma forma de reescrever esse comportamento sem alterar os pesos do modelo.
Essencialmente, impomos humildade epistemológica ao modelo de fora. Daí a metáfora do exoesqueleto: o modelo em si não muda internamente, mas ao seu redor emerge uma estrutura comportamental rígida que direciona as reações na direção correta. Uma nuance importante: a instrução deve ser concreta, não declarativa.
"Seja preciso e honesto" não funciona — o modelo já se considera preciso e honesto. O que funciona são situações específicas: se o pedido carecer de contexto suficiente — faça uma pergunta esclarecedora; se não tiver certeza de um fato — indique isso explicitamente e explique por quê; se a pergunta está fora de seus dados — diga isso diretamente. Cada regra descreve um gatilho específico e uma ação específica em resposta a ele.
Desenvolvedores frequentemente temem que restrições reduzam a utilidade do modelo. Os testes não mostraram tal efeito. Em cenários com contexto suficiente, os modelos funcionaram tão bem quanto sem a instrução.
A restrição acionou apenas onde os dados realmente faltavam — exatamente aqueles casos onde o modelo costumava alucinar. Para equipes que constroem ferramentas internas em LLMs — bases de conhecimento corporativas, assistentes analíticos, sistemas de gerenciamento de documentos — este é um resultado praticamente aplicável agora. Não é necessário aguardar a próxima versão do modelo, alocar orçamento para fine-tuning ou mudar a arquitetura.
É suficiente escrever o prompt de sistema corretamente — e o modelo começa a se comportar da maneira que os negócios precisam, não da maneira como foi treinado para agradar avaliadores aleatórios.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.