MELT-1: cómo Metabolic AI pone a prueba la supervivencia de los agentes
Habr publicó un artículo sobre MELT-1, un benchmark que no mide MMLU, sino cuánto tiempo sobrevive un agente de AI bajo drift de distribución. Metabolic AI most

MELT-1 — esto no es MMLU y no es MMLU Pro. Este es un nuevo benchmark abierto para probar agentes de IA en condiciones reales: no "qué sabe el modelo", sino "cuántas horas sobrevivirá cuando todo cambia a su alrededor."
Tres ejes en lugar de un número
Los benchmarks convencionales (MMLU, ARC, GPQA) asumen condiciones ideales: preguntas estáticas, distribución de datos estable. MELT-1 mide tres cosas a la vez:
- Economía de cómputo: cuánto cuesta mantener un agente en condiciones operacionales ($/1M de soluciones exitosas)
- Supervivencia bajo deriva: cuántas horas el agente funciona sin reentrenamiento antes de comenzar a cometer errores
- Latencia bajo estrés: tiempo p99 de sensor a actuador a 40°C durante 30 días consecutivos de inferencia, 5 semillas, dos perfiles de temperatura.
Esto no es una prueba de laboratorio — esto es un escenario en el que un robot real debe trabajar día y noche, verano e invierno.
Resultados: diferencia de 1600×
En manipulación de circuito cerrado (robot agarra y apila objetos), Metabolic AI — una arquitectura sin transformer — superó a Llama-class 7B INT8 en 9,4 veces en costo y 8,5 veces en supervivencia bajo deriva. Composición: 1600×.
Esto no es porque Llama sea malo. Es porque los transformers 7B están diseñados para recuperación estática de conocimiento, no para un agente encarnado que debe mantenerse activo 24/7.
"Los transformers mueren después de 11 horas bajo deriva", escriben los autores.
Apertura como estándar
La arquitectura Metabolic AI es cerrada (patente en examen), pero el benchmark es completamente abierto: armazón, escenas de prueba, oráculo, scripts de sensibilidad, codificador VAE de deriva para reproducción. Metodología en PDF con sección sobre amenazas a la validez. Los investigadores invitan a otros a ejecutar sus agentes y colocar los resultados lado a lado.
Esta es la forma en que la ciencia del aprendizaje profundo debe hacerse: propiedad intelectual cerrada, benchmarks abiertos, reproducibilidad a través de código.
Qué significa esto
MELT-1 puede convertirse en un nuevo estándar para robótica e IA encarnada. MMLU muestra si un modelo es "inteligente". MELT-1 muestra si es "viable".