AWS Machine Learning Blog→ original

Juízes multimodais: como a AWS avalia a qualidade das descrições de imagens

A AWS adicionou avaliadores multimodais ao Strands Evals, uma ferramenta para avaliar modelos de AI. Eles verificam se descrições de imagens, faturas e capturas

Juízes multimodais: como a AWS avalia a qualidade das descrições de imagens
Fonte: AWS Machine Learning Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Se você está desenvolvendo um sistema de busca de produtos por foto, reconhecimento de documentos ou análise de diagramas, precisa de uma verificação confiável da qualidade do modelo. A AWS apresentou uma solução em Strands Evals — avaliadores multimodais que verificam a correspondência entre a resposta e a imagem original.

Por

Que Avaliadores de Texto Não Funcionam para Image-to-Text

Avaliadores tradicionais funcionam apenas com texto. Eles comparam a resposta do modelo com uma resposta de referência, mas não veem a imagem em si. Isso cria um ponto cego: o avaliador não consegue verificar se uma descrição de produto contém detalhes precisos da foto, se o valor foi corretamente extraído da nota fiscal, ou se a captura de tela foi resumida corretamente. Um modelo pode fornecer uma resposta que parece perfeita no papel, mas contradiz o que é visível na imagem. Por exemplo, um sistema de reconhecimento de notas fiscais pode identificar corretamente um formato de número, mas errar o valor real se o dígito no documento estiver desfocado. Um avaliador de texto não detectará esse erro.

Como Juízes Multimodais Veem o Contexto Completo

Os novos avaliadores da AWS usam modelos de linguagem grandes multimodais (MLLM) que simultaneamente veem a imagem original e a resposta em texto do modelo. Isso permite que o juiz verifique não apenas gramática ou estilo, mas a correspondência real entre a imagem e a resposta. Um juiz assim pode:

  • Verificar se uma descrição de produto corresponde à sua aparência e cor
  • Garantir que números e texto extraídos de um documento sejam precisos
  • Avaliar se a informação de uma captura de tela, diagrama ou desenho foi transmitida corretamente
  • Detectar alucinações — casos em que o modelo produz informações que não aparecem na imagem
  • Verificar a qualidade da tradução de texto visível na imagem

Aplicação Prática em Diferentes Setores

Avaliadores multimodais são especialmente úteis onde erros de reconhecimento podem levar a perdas. No e-commerce, empresas treinam modelos para descrever produtos a partir de fotos, e descrições incorretas reduzem a conversão e aumentam devoluções. Na análise financeira, um erro ao extrair um valor da nota fiscal pode levar a erros de auditoria. E em sistemas de informação, processamento incorreto de documentos pode bloquear um processo de negócio inteiro. A AWS integrou avaliadores multimodais ao Strands Evals para que desenvolvedores pudessem verificar automaticamente durante o desenvolvimento ou teste de modelos que seu sistema realmente "vê" os dados da mesma forma que os humanos.

O Que Isso Significa para Desenvolvedores

Para engenheiros de ML, isso significa não precisar mais verificar manualmente amostras de resultados. O processo de avaliação de qualidade pode ser automatizado e tornado mais objetivo. Juízes multimodais estão se tornando uma ferramenta padrão para validar modelos de visão computacional, assim como métricas de texto há muito tempo são usadas em PLN.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…