Bloomberg Tech→ original

METR Explica Como a IA se Aproxima da Execução Autônoma de Tarefas Complexas por Quase 12 Horas

A METR discutiu no Bloomberg por que o mercado de IA está cada vez menos focado em respostas polidas e cada vez mais na capacidade dos modelos de completar…

Processado por IA de Bloomberg Tech; editado por Hamidun News
METR Explica Como a IA se Aproxima da Execução Autônoma de Tarefas Complexas por Quase 12 Horas
Fonte: Bloomberg Tech. Colagem: Hamidun News.
◐ Ouvir artigo

Em um vídeo do Bloomberg Tech baseado no episódio do podcast Odd Lots de 25 de abril de 2026, representantes da organização de pesquisa METR explicaram por que a principal questão em torno da IA agora soa não como "a modelo pode responder a uma consulta", mas "quanto tempo ela é capaz de puxar autonomamente uma tarefa complexa e multietapas". De acordo com sua avaliação, Claude Opus 4.6 já está se aproximando de um nível onde um agente pode completar um trabalho com probabilidade notável que levaria um humano quase 12 horas.

METR, ou Model Evaluation and Threat Research, mede o quão longe os modelos líderes avançaram na operação autônoma. O presidente da organização, Chris Painter, e o pesquisador Joel Becker discutiram não benchmarks ordinários de conhecimento, mas tarefas onde o modelo deve planejar, usar ferramentas, escrever e verificar código, corrigir erros e levar o trabalho à conclusão sem indicações humanas constantes. Este modo é exatamente o que importa para avaliar a utilidade real dos sistemas de agentes e seus riscos associados.

A métrica chave do METR é o horizonte de tempo. Não é o tempo que a IA gasta em uma tarefa, mas a complexidade da tarefa medida por quanto tempo um humano qualificado gastaria com ela. No painel oficial do METR, essa avaliação é construída em mais de uma centena de atribuições dos domínios de desenvolvimento, aprendizado de máquina e cibersegurança.

Para cada modelo, os pesquisadores executam múltiplas execuções independentes, comparam o resultado com as pontuações de referência humanas e, em seguida, constroem uma curva de probabilidade de sucesso. O processo em si leva não horas, mas pelo menos uma a duas semanas de tempo do calendário, porque a equipe deve selecionar a infraestrutura de trabalho, verificar falhas, descartar tentativas de contornar a avaliação e verificar manualmente execuções contestadas. Se um modelo tem um horizonte de 50% de várias horas, significa que ele bem-sucede em tarefas dessa complexidade aproximadamente metade das vezes.

É precisamente por isso que a frase sobre quase 12 horas para Claude Opus 4.6 soa notavelmente mais séria do que outro recorde de benchmark. Não é sobre uma resposta de bate-papo polida, mas sobre a capacidade de manter contexto, dividir o trabalho em etapas e não desmoronar após a primeira falha.

Na atualização de janeiro Time Horizon 1.1 do METR, a organização também observou que historicamente o horizonte de capacidade dos modelos líderes duplicava aproximadamente a cada sete meses, e nas medições para modelos posteriores a 2023 o ritmo parecia ainda maior. Ao mesmo tempo, o próprio METR avisa separadamente: tais números não podem ser traduzidos diretamente em prontidão para substituir humanos em qualquer trabalho intelectual.

Seu conjunto de tarefas consiste principalmente em casos bem especificados de engenharia e pesquisa com verificação de resultados clara. No trabalho ordinário há muito contexto oculto, comunicação e critérios de sucesso ambíguos. Outra conclusão também decorre da discussão.

Quando as pessoas dizem que a IA está começando a trabalhar juntas, na prática significa cada vez mais uma combinação de um modelo, ferramentas e um loop de controle, não simplesmente outro chatbot na janela ao lado. Os sistemas de agentes modernos já sabem como chamar editores de código, executar testes, pesquisar informações e passar resultados intermediários para a próxima etapa. Quanto mais longo o horizonte de trabalho autônomo do modelo base, mais úteis essas cadeias se tornam e mais difícil é para um humano manter controle total sobre cada ação.

É por isso que o METR vê o crescimento do horizonte não apenas como progresso de produto, mas também como um sinal para avaliação de risco, incluindo cenários onde os sistemas ganham muita autonomia. O significado prático dessa discussão é que o mercado de IA está gradualmente mudando de comparar respostas para comparar autonomia de trabalho. Para as empresas, essa é uma questão de quais processos já podem ser delegados aos agentes.

Para os desenvolvedores de modelos, essa é uma questão de quão rapidamente a capacidade real dos sistemas de levar tarefas longas à conclusão está crescendo. E para reguladores e pesquisadores de segurança, esse é um indicador inicial do momento em que a conversa sobre IA autônoma deixará de ser teoria e se tornará realidade operacional.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…