Habr AI→ original

MELT-1: como a Metabolic AI testa a sobrevivência dos agentes

O Habr publicou um artigo sobre o MELT-1, um benchmark que mede não o MMLU, mas por quanto tempo um agente de AI sobrevive sob drift de distribuição. A Metaboli

MELT-1: como a Metabolic AI testa a sobrevivência dos agentes
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

MELT-1 — este não é MMLU e não é MMLU Pro. Este é um novo benchmark aberto para testar agentes de IA em condições reais: não "o que o modelo sabe", mas "quantas horas ele sobreviverá quando tudo muda ao seu redor."

Três eixos em vez de um número

Benchmarks convencionais (MMLU, ARC, GPQA) pressupõem condições ideais: perguntas estáticas, distribuição de dados estável. MELT-1 mede três coisas ao mesmo tempo:

  • Economia da computação: quanto custa manter um agente em condições operacionais ($/1M de soluções bem-sucedidas)
  • Sobrevivência sob deriva: quantas horas o agente trabalha sem retreinamento antes de começar a cometer erros
  • Latência sob estresse: tempo p99 do sensor ao atuador a 40°C durante 30 dias consecutivos de inferência, 5 sementes, dois perfis de temperatura.

Este não é um teste de laboratório — este é um cenário no qual um robô real deve trabalhar dia e noite, verão e inverno.

Resultados: diferença de 1600×

Em manipulação em malha fechada (robô pega e empilha objetos), Metabolic AI — uma arquitetura sem transformer — superou Llama-class 7B INT8 em 9,4 vezes no custo e 8,5 vezes na sobrevivência sob deriva. Composição: 1600×.

Isto não é porque Llama é ruim. É porque transformers 7B foram projetados para recuperação estática de conhecimento, não para um agente encarnado que precisa ficar ativo 24/7.

"Transformers morrem após 11 horas sob deriva", escrevem os autores.

Abertura como padrão

A arquitetura Metabolic AI é fechada (patente em exame), mas o benchmark é totalmente aberto: framework, cenas de teste, oráculo, scripts de sensibilidade, codificador VAE de deriva para reprodução. Metodologia em PDF com seção sobre ameaças à validade. Pesquisadores convidam outros a executar seus agentes e colocar os resultados lado a lado.

Esta é a forma como a ciência em aprendizado profundo deve ser feita: propriedade intelectual fechada, benchmarks abertos, reprodutibilidade através de código.

O que isto significa

MELT-1 pode se tornar um novo padrão para robótica e IA encarnada. MMLU mostra se um modelo é "inteligente". MELT-1 mostra se ele é "viável".

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…