MELT-1: como a Metabolic AI testa a sobrevivência dos agentes
O Habr publicou um artigo sobre o MELT-1, um benchmark que mede não o MMLU, mas por quanto tempo um agente de AI sobrevive sob drift de distribuição. A Metaboli

MELT-1 — este não é MMLU e não é MMLU Pro. Este é um novo benchmark aberto para testar agentes de IA em condições reais: não "o que o modelo sabe", mas "quantas horas ele sobreviverá quando tudo muda ao seu redor."
Três eixos em vez de um número
Benchmarks convencionais (MMLU, ARC, GPQA) pressupõem condições ideais: perguntas estáticas, distribuição de dados estável. MELT-1 mede três coisas ao mesmo tempo:
- Economia da computação: quanto custa manter um agente em condições operacionais ($/1M de soluções bem-sucedidas)
- Sobrevivência sob deriva: quantas horas o agente trabalha sem retreinamento antes de começar a cometer erros
- Latência sob estresse: tempo p99 do sensor ao atuador a 40°C durante 30 dias consecutivos de inferência, 5 sementes, dois perfis de temperatura.
Este não é um teste de laboratório — este é um cenário no qual um robô real deve trabalhar dia e noite, verão e inverno.
Resultados: diferença de 1600×
Em manipulação em malha fechada (robô pega e empilha objetos), Metabolic AI — uma arquitetura sem transformer — superou Llama-class 7B INT8 em 9,4 vezes no custo e 8,5 vezes na sobrevivência sob deriva. Composição: 1600×.
Isto não é porque Llama é ruim. É porque transformers 7B foram projetados para recuperação estática de conhecimento, não para um agente encarnado que precisa ficar ativo 24/7.
"Transformers morrem após 11 horas sob deriva", escrevem os autores.
Abertura como padrão
A arquitetura Metabolic AI é fechada (patente em exame), mas o benchmark é totalmente aberto: framework, cenas de teste, oráculo, scripts de sensibilidade, codificador VAE de deriva para reprodução. Metodologia em PDF com seção sobre ameaças à validade. Pesquisadores convidam outros a executar seus agentes e colocar os resultados lado a lado.
Esta é a forma como a ciência em aprendizado profundo deve ser feita: propriedade intelectual fechada, benchmarks abertos, reprodutibilidade através de código.
O que isto significa
MELT-1 pode se tornar um novo padrão para robótica e IA encarnada. MMLU mostra se um modelo é "inteligente". MELT-1 mostra se ele é "viável".