Habr AI→ original

DeepMind propôs dez escalas cognitivas para medir o progresso rumo à AGI

O Google DeepMind publicou "Measuring Progress Toward AGI" — uma continuação da classificação dos níveis de AGI de 2023. Em vez de uma nota única, o…

Processado por IA de Habr AI; editado por Hamidun News
DeepMind propôs dez escalas cognitivas para medir o progresso rumo à AGI
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Google DeepMind publicou um artigo intitulado "Measuring Progress Toward AGI" — uma tentativa de fornecer à indústria uma ferramenta para medir genuinamente o progresso em direção à AGI, em vez de mais uma classificação sem como verificá-la.

De onde veio o problema

Há quase três anos, DeepMind publicou "Levels of AGI" — um sistema de cinco níveis de inteligência (do inicial ao sobre-humano) e seis níveis de autonomia (de ferramenta simples a agente totalmente autônomo). A analogia com os níveis de direção autônoma se provou acertada: estruturada, visual, conveniente para explicar a investidores e jornalistas. A indústria ganhou um vocabulário comum — algo como uma terminologia unificada para falar sobre AGI.

Mas a classificação revelou uma falha fundamental: não havia ferramenta para verificar onde qualquer sistema dado realmente estava. Cada empresa poderia chamar seu modelo de "nível 2" ou "nível 3", e ninguém tinha forma de contestar. "AGI" tornou-se um rótulo de marketing — conveniente para comunicados à imprensa e atração de investimentos, mas completamente inconveniente para a ciência.

Este novo trabalho tenta resolver exatamente esse problema.

Dez escalas em vez de um escore único

O artigo, lançado em março de 2026, propõe uma abordagem fundamentalmente diferente. Em vez de uma classificação geral única — dez escalas separadas, cada uma medindo um aspecto específico das capacidades cognitivas. Além disso, as escalas são independentes: um sistema pode mostrar um resultado alto em raciocínio, mas baixo em adaptação a novas tarefas — e essa discrepância será claramente visível, não escondida atrás de um valor médio. Esta abordagem fornece um retrato multidimensional de um sistema, não um único número.

A diferença fundamental do benchmarking convencional: as escalas são construídas não em conjuntos de dados e conjuntos de problemas, mas em ferramentas de psicologia cognitiva — uma ciência que há décadas pesquisa a inteligência em pessoas reais e desenvolveu metodologias resistentes a efeitos de treinamento.

Entre os aspectos medidos:

  • Memória de trabalho e retenção de contexto
  • Planejamento e raciocínio em múltiplas etapas
  • Transferência de conhecimento para novos domínios
  • Aprendizagem a partir de um pequeno número de exemplos (few-shot)
  • Meta-cognição — compreensão dos limites do próprio conhecimento
  • Raciocínio causal
  • Adaptação a dados fora da distribuição de treinamento

Os autores posicionam o framework como um ponto de partida para discussão, não um padrão final. A lista de escalas está aberta para expansão.

Por que isso importa mais do que benchmarks

Até agora, o progresso em IA tem sido medido indiretamente: MMLU, HumanEval, ARC-Challenge, GSM8K. O problema é que os modelos aprenderam a deliberadamente "fazer overfitting" em benchmarks específicos. Uma pontuação alta em MMLU deixou há muito tempo de ser um indicador confiável do raciocínio real — e todos na indústria sabem disso, mas os padrões não mudam. A abordagem cognitivo-psicológica é significativamente mais difícil de enganar. Se um modelo não consegue generalizar para tarefas fundamentalmente novas — nenhum treinamento adicional no conjunto de teste esconderá isso. As metodologias desenvolvidas para medir inteligência em humanos são por sua própria natureza resistentes a "manipular" o sistema.

Para investidores, compradores corporativos de IA e reguladores, isso potencialmente significa o fim da era em que qualquer laboratório poderia anunciar um "avanço em direção à AGI" sem possibilidade de verificação independente. Escalas mensuráveis comuns criam comparabilidade entre sistemas de diferentes empresas e, assim, — responsabilidade.

O que isso significa

DeepMind está mudando a conversa sobre AGI de "temos o nível N" para "aqui está especificamente como isso pode ser medido". Isto não é uma resposta sobre prazos da AGI e não é uma garantia de consenso — diferentes laboratórios interpretarão as escalas de forma diferente. Mas é o primeiro passo sério em direção a padrões de avaliação comuns, construído na ciência em vez de marketing.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…