Habr AI→ original

MELT-1: como a Metabolic AI testa a sobrevivência dos agentes

O Habr publicou um artigo sobre o MELT-1, um benchmark que mede não o MMLU, mas por quanto tempo um agente de AI sobrevive sob drift de distribuição. A Metaboli

Processado por IA de Habr AI; editado por Hamidun News
MELT-1: como a Metabolic AI testa a sobrevivência dos agentes
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

MELT-1 — este não é MMLU e não é MMLU Pro. Este é um novo benchmark aberto para testar agentes de IA em condições reais: não "o que o modelo sabe", mas "quantas horas ele sobreviverá quando tudo muda ao seu redor."

Três eixos em vez de um número

Benchmarks convencionais (MMLU, ARC, GPQA) pressupõem condições ideais: perguntas estáticas, distribuição de dados estável. MELT-1 mede três coisas ao mesmo tempo:

  • Economia da computação: quanto custa manter um agente em condições operacionais ($/1M de soluções bem-sucedidas)
  • Sobrevivência sob deriva: quantas horas o agente trabalha sem retreinamento antes de começar a cometer erros
  • Latência sob estresse: tempo p99 do sensor ao atuador a 40°C durante 30 dias consecutivos de inferência, 5 sementes, dois perfis de temperatura.

Este não é um teste de laboratório — este é um cenário no qual um robô real deve trabalhar dia e noite, verão e inverno.

Resultados: diferença de 1600×

Em manipulação em malha fechada (robô pega e empilha objetos), Metabolic AI — uma arquitetura sem transformer — superou Llama-class 7B INT8 em 9,4 vezes no custo e 8,5 vezes na sobrevivência sob deriva. Composição: 1600×.

Isto não é porque Llama é ruim. É porque transformers 7B foram projetados para recuperação estática de conhecimento, não para um agente encarnado que precisa ficar ativo 24/7.

"Transformers morrem após 11 horas sob deriva", escrevem os autores.

Abertura como padrão

A arquitetura Metabolic AI é fechada (patente em exame), mas o benchmark é totalmente aberto: framework, cenas de teste, oráculo, scripts de sensibilidade, codificador VAE de deriva para reprodução. Metodologia em PDF com seção sobre ameaças à validade. Pesquisadores convidam outros a executar seus agentes e colocar os resultados lado a lado.

Esta é a forma como a ciência em aprendizado profundo deve ser feita: propriedade intelectual fechada, benchmarks abertos, reprodutibilidade através de código.

O que isto significa

MELT-1 pode se tornar um novo padrão para robótica e IA encarnada. MMLU mostra se um modelo é "inteligente". MELT-1 mostra se ele é "viável".

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…