AWS Machine Learning Blog→ original

AWS e Artificial Genius demonstraram forma de reduzir alucinações de LLM em finanças e medicina

AWS e Artificial Genius propuseram um esquema para bancos, medicina e outras indústrias reguladas onde LLM não gera uma resposta, mas a extrai ou verifica…

Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
AWS e Artificial Genius demonstraram forma de reduzir alucinações de LLM em finanças e medicina
Fonte: AWS Machine Learning Blog. Colagem: Hamidun News.
◐ Ouvir artigo

AWS, juntamente com seu parceiro Artificial Genius, demonstrou como adaptar grandes modelos de linguagem para tarefas onde o erro é inaceitável. A abordagem é baseada em Amazon Nova e SageMaker, mas a ideia chave não está em um novo tamanho de modelo, mas em usar sua compreensão de linguagem sem geração livre de respostas.

Por Que Isto É um Problema

Para serviços financeiros, medicina, seguros e processos jurídicos, os LLMs comuns ainda parecem arriscados. Eles escrevem, resumem e explicam bem, mas por natureza permanecem sistemas probabilísticos: o modelo prevê o próximo token em vez de extrair um fato garantidamente correto. Isso leva a alucinações—respostas que soam convincentes, mas não são apoiadas pelos dados originais. Em um ambiente onde auditoria, reprodutibilidade e responsabilidade importam, esse modo de operação é incompatível com produção.

Os autores do artigo sugerem ver a evolução da IA em três etapas. A primeira onda foi construída em lógica simbólica e regras rígidas: esses sistemas eram determinísticos, mas muito inflexíveis. A segunda onda, que inclui transformadores modernos, proporcionou um grande salto em fluência e compreensão de linguagem, mas trouxe impredictibilidade. Artificial Genius chama sua abordagem de terceira geração: o modelo ainda compreende linguagem natural como um LLM moderno, mas a resposta final passa por lógica determinística e não deve exceder o que realmente existe no contexto de entrada.

Como o Esquema Funciona

A tese principal da AWS e Artificial Genius é assim: um modelo generativo pode ser usado estritamente de forma não-generativa. Ou seja, não "adivinha" a resposta baseada na probabilidade do próximo token, mas verifica se ela pode ser extraída do documento, e se não—recusa responder. Esse modo é especialmente útil para perguntas como datas, valores, nomes, trechos de relatórios ou confirmação de um fato específico.

No artigo, isto é formulado muito diretamente:

"Se a pergunta não pode ser respondida a partir do documento, o modelo

deve responder: 'Unknown'."

  • como modelo base, escolheram Amazon Nova Lite, porque é mais adequado para respostas curtas e claras sem verbosidade desnecessária;
  • o fine-tuning é feito no SageMaker através de supervised fine-tuning, para que o modelo siga uma regra de sistema—não invente coisas;
  • para treinamento, eles usam um conjunto sintético de perguntas e respostas, com consultas respondíveis e intencionalmente não-respondíveis;
  • em vez do RAG clássico, que permanece generativo de qualquer forma, a ênfase está em uma conexão mais estreita entre o texto do documento e uma pergunta específica;
  • em cima disso, é empacotado em uma plataforma de agentes, onde uma consulta livre pode ser traduzida em uma especificação mais rigorosa, e a única verificação manual permanece no estágio dessa tradução.

Um detalhe importante: os autores contrastam separadamente seu método com o conselho familiar "defina temperatura para zero." De acordo com eles, isso não resolve o problema raiz porque o modelo continua gerando de qualquer forma. Em sua versão, não é apenas o grau de aleatoriedade que muda, mas a própria lógica de usar o modelo: a compreensão probabilística é preservada na entrada, enquanto na saída o sistema busca um modo binário—responder apenas com o que é confirmado pelo texto, ou honestamente dizer que não há resposta.

O Que os Testes Mostraram

Tecnicamente, o esquema parece bastante direto e, portanto, interessante. Os dados de treinamento são armazenados em Amazon S3, o fine-tuning do modelo Nova base é feito em SageMaker Training Jobs, e então a versão personalizada é importada para Amazon Bedrock e entregue ao aplicativo através de um pipeline de inferência padrão. Para equipes corporativas, isso importa não apenas por conveniência, mas também pela transparência da linhagem de dados: é mais fácil entender em quais dados o modelo foi treinado, onde foi modificado e como foi implantado em produção.

A equipe também revelou várias descobertas de engenharia. Para fine-tuning, eles usaram LoRA para evitar quebrar a compreensão de linguagem base do modelo. Em experimentos anteriores com outro modelo, eles até tiveram que suprimir forçadamente chain-of-thought através de um token de serviço `</think>`, porque raciocínio detalhado interferia com respostas determinísticas concisas. Para a versão Nova Lite, os autores combinaram LoRA dropout em nível de 50%, early stopping manual e expansão do conjunto de dados sintético para 30 mil exemplos. De acordo com seus dados, isso reduziu a frequência de alucinação de frações de percentual em configurações iniciais para 0,03% na melhor variante.

O Que Isto Significa

A história importa não apenas para usuários da AWS. Ela mostra um deslocamento mais amplo: o mercado está começando a procurar não apenas os "mais inteligentes" LLMs, mas modelos com limites comportamentais de engenharia. Para bancos, seguradoras, clínicas e legal-tech, este é um sinal de que a implementação de IA será cada vez mais construída em torno de verificabilidade, recusa de respostas e fluxos de trabalho controlados, em vez de em torno de geração bonita a qualquer custo.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…