DeepMind propôs dez escalas cognitivas para medir o progresso rumo à AGI
O Google DeepMind publicou "Measuring Progress Toward AGI" — uma continuação da classificação dos níveis de AGI de 2023. Em vez de uma nota única, o…
Processado por IA de Habr AI; editado por Hamidun News
Google DeepMind publicou um artigo intitulado "Measuring Progress Toward AGI" — uma tentativa de fornecer à indústria uma ferramenta para medir genuinamente o progresso em direção à AGI, em vez de mais uma classificação sem como verificá-la.
De onde veio o problema
Há quase três anos, DeepMind publicou "Levels of AGI" — um sistema de cinco níveis de inteligência (do inicial ao sobre-humano) e seis níveis de autonomia (de ferramenta simples a agente totalmente autônomo). A analogia com os níveis de direção autônoma se provou acertada: estruturada, visual, conveniente para explicar a investidores e jornalistas. A indústria ganhou um vocabulário comum — algo como uma terminologia unificada para falar sobre AGI.
Mas a classificação revelou uma falha fundamental: não havia ferramenta para verificar onde qualquer sistema dado realmente estava. Cada empresa poderia chamar seu modelo de "nível 2" ou "nível 3", e ninguém tinha forma de contestar. "AGI" tornou-se um rótulo de marketing — conveniente para comunicados à imprensa e atração de investimentos, mas completamente inconveniente para a ciência.
Este novo trabalho tenta resolver exatamente esse problema.
Dez escalas em vez de um escore único
O artigo, lançado em março de 2026, propõe uma abordagem fundamentalmente diferente. Em vez de uma classificação geral única — dez escalas separadas, cada uma medindo um aspecto específico das capacidades cognitivas. Além disso, as escalas são independentes: um sistema pode mostrar um resultado alto em raciocínio, mas baixo em adaptação a novas tarefas — e essa discrepância será claramente visível, não escondida atrás de um valor médio. Esta abordagem fornece um retrato multidimensional de um sistema, não um único número.
A diferença fundamental do benchmarking convencional: as escalas são construídas não em conjuntos de dados e conjuntos de problemas, mas em ferramentas de psicologia cognitiva — uma ciência que há décadas pesquisa a inteligência em pessoas reais e desenvolveu metodologias resistentes a efeitos de treinamento.
Entre os aspectos medidos:
- Memória de trabalho e retenção de contexto
- Planejamento e raciocínio em múltiplas etapas
- Transferência de conhecimento para novos domínios
- Aprendizagem a partir de um pequeno número de exemplos (few-shot)
- Meta-cognição — compreensão dos limites do próprio conhecimento
- Raciocínio causal
- Adaptação a dados fora da distribuição de treinamento
Os autores posicionam o framework como um ponto de partida para discussão, não um padrão final. A lista de escalas está aberta para expansão.
Por que isso importa mais do que benchmarks
Até agora, o progresso em IA tem sido medido indiretamente: MMLU, HumanEval, ARC-Challenge, GSM8K. O problema é que os modelos aprenderam a deliberadamente "fazer overfitting" em benchmarks específicos. Uma pontuação alta em MMLU deixou há muito tempo de ser um indicador confiável do raciocínio real — e todos na indústria sabem disso, mas os padrões não mudam. A abordagem cognitivo-psicológica é significativamente mais difícil de enganar. Se um modelo não consegue generalizar para tarefas fundamentalmente novas — nenhum treinamento adicional no conjunto de teste esconderá isso. As metodologias desenvolvidas para medir inteligência em humanos são por sua própria natureza resistentes a "manipular" o sistema.
Para investidores, compradores corporativos de IA e reguladores, isso potencialmente significa o fim da era em que qualquer laboratório poderia anunciar um "avanço em direção à AGI" sem possibilidade de verificação independente. Escalas mensuráveis comuns criam comparabilidade entre sistemas de diferentes empresas e, assim, — responsabilidade.
O que isso significa
DeepMind está mudando a conversa sobre AGI de "temos o nível N" para "aqui está especificamente como isso pode ser medido". Isto não é uma resposta sobre prazos da AGI e não é uma garantia de consenso — diferentes laboratórios interpretarão as escalas de forma diferente. Mas é o primeiro passo sério em direção a padrões de avaliação comuns, construído na ciência em vez de marketing.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.