AWS e Artificial Genius demonstraram forma de reduzir alucinações de LLM em finanças e medicina
AWS e Artificial Genius propuseram um esquema para bancos, medicina e outras indústrias reguladas onde LLM não gera uma resposta, mas a extrai ou verifica…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
AWS, juntamente com seu parceiro Artificial Genius, demonstrou como adaptar grandes modelos de linguagem para tarefas onde o erro é inaceitável. A abordagem é baseada em Amazon Nova e SageMaker, mas a ideia chave não está em um novo tamanho de modelo, mas em usar sua compreensão de linguagem sem geração livre de respostas.
Por Que Isto É um Problema
Para serviços financeiros, medicina, seguros e processos jurídicos, os LLMs comuns ainda parecem arriscados. Eles escrevem, resumem e explicam bem, mas por natureza permanecem sistemas probabilísticos: o modelo prevê o próximo token em vez de extrair um fato garantidamente correto. Isso leva a alucinações—respostas que soam convincentes, mas não são apoiadas pelos dados originais. Em um ambiente onde auditoria, reprodutibilidade e responsabilidade importam, esse modo de operação é incompatível com produção.
Os autores do artigo sugerem ver a evolução da IA em três etapas. A primeira onda foi construída em lógica simbólica e regras rígidas: esses sistemas eram determinísticos, mas muito inflexíveis. A segunda onda, que inclui transformadores modernos, proporcionou um grande salto em fluência e compreensão de linguagem, mas trouxe impredictibilidade. Artificial Genius chama sua abordagem de terceira geração: o modelo ainda compreende linguagem natural como um LLM moderno, mas a resposta final passa por lógica determinística e não deve exceder o que realmente existe no contexto de entrada.
Como o Esquema Funciona
A tese principal da AWS e Artificial Genius é assim: um modelo generativo pode ser usado estritamente de forma não-generativa. Ou seja, não "adivinha" a resposta baseada na probabilidade do próximo token, mas verifica se ela pode ser extraída do documento, e se não—recusa responder. Esse modo é especialmente útil para perguntas como datas, valores, nomes, trechos de relatórios ou confirmação de um fato específico.
No artigo, isto é formulado muito diretamente:
"Se a pergunta não pode ser respondida a partir do documento, o modelo
deve responder: 'Unknown'."
- como modelo base, escolheram Amazon Nova Lite, porque é mais adequado para respostas curtas e claras sem verbosidade desnecessária;
- o fine-tuning é feito no SageMaker através de supervised fine-tuning, para que o modelo siga uma regra de sistema—não invente coisas;
- para treinamento, eles usam um conjunto sintético de perguntas e respostas, com consultas respondíveis e intencionalmente não-respondíveis;
- em vez do RAG clássico, que permanece generativo de qualquer forma, a ênfase está em uma conexão mais estreita entre o texto do documento e uma pergunta específica;
- em cima disso, é empacotado em uma plataforma de agentes, onde uma consulta livre pode ser traduzida em uma especificação mais rigorosa, e a única verificação manual permanece no estágio dessa tradução.
Um detalhe importante: os autores contrastam separadamente seu método com o conselho familiar "defina temperatura para zero." De acordo com eles, isso não resolve o problema raiz porque o modelo continua gerando de qualquer forma. Em sua versão, não é apenas o grau de aleatoriedade que muda, mas a própria lógica de usar o modelo: a compreensão probabilística é preservada na entrada, enquanto na saída o sistema busca um modo binário—responder apenas com o que é confirmado pelo texto, ou honestamente dizer que não há resposta.
O Que os Testes Mostraram
Tecnicamente, o esquema parece bastante direto e, portanto, interessante. Os dados de treinamento são armazenados em Amazon S3, o fine-tuning do modelo Nova base é feito em SageMaker Training Jobs, e então a versão personalizada é importada para Amazon Bedrock e entregue ao aplicativo através de um pipeline de inferência padrão. Para equipes corporativas, isso importa não apenas por conveniência, mas também pela transparência da linhagem de dados: é mais fácil entender em quais dados o modelo foi treinado, onde foi modificado e como foi implantado em produção.
A equipe também revelou várias descobertas de engenharia. Para fine-tuning, eles usaram LoRA para evitar quebrar a compreensão de linguagem base do modelo. Em experimentos anteriores com outro modelo, eles até tiveram que suprimir forçadamente chain-of-thought através de um token de serviço `</think>`, porque raciocínio detalhado interferia com respostas determinísticas concisas. Para a versão Nova Lite, os autores combinaram LoRA dropout em nível de 50%, early stopping manual e expansão do conjunto de dados sintético para 30 mil exemplos. De acordo com seus dados, isso reduziu a frequência de alucinação de frações de percentual em configurações iniciais para 0,03% na melhor variante.
O Que Isto Significa
A história importa não apenas para usuários da AWS. Ela mostra um deslocamento mais amplo: o mercado está começando a procurar não apenas os "mais inteligentes" LLMs, mas modelos com limites comportamentais de engenharia. Para bancos, seguradoras, clínicas e legal-tech, este é um sinal de que a implementação de IA será cada vez mais construída em torno de verificabilidade, recusa de respostas e fluxos de trabalho controlados, em vez de em torno de geração bonita a qualquer custo.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.