Habr AI→ original

MELT-1: cómo Metabolic AI pone a prueba la supervivencia de los agentes

Habr publicó un artículo sobre MELT-1, un benchmark que no mide MMLU, sino cuánto tiempo sobrevive un agente de AI bajo drift de distribución. Metabolic AI most

MELT-1: cómo Metabolic AI pone a prueba la supervivencia de los agentes
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

MELT-1 — esto no es MMLU y no es MMLU Pro. Este es un nuevo benchmark abierto para probar agentes de IA en condiciones reales: no "qué sabe el modelo", sino "cuántas horas sobrevivirá cuando todo cambia a su alrededor."

Tres ejes en lugar de un número

Los benchmarks convencionales (MMLU, ARC, GPQA) asumen condiciones ideales: preguntas estáticas, distribución de datos estable. MELT-1 mide tres cosas a la vez:

  • Economía de cómputo: cuánto cuesta mantener un agente en condiciones operacionales ($/1M de soluciones exitosas)
  • Supervivencia bajo deriva: cuántas horas el agente funciona sin reentrenamiento antes de comenzar a cometer errores
  • Latencia bajo estrés: tiempo p99 de sensor a actuador a 40°C durante 30 días consecutivos de inferencia, 5 semillas, dos perfiles de temperatura.

Esto no es una prueba de laboratorio — esto es un escenario en el que un robot real debe trabajar día y noche, verano e invierno.

Resultados: diferencia de 1600×

En manipulación de circuito cerrado (robot agarra y apila objetos), Metabolic AI — una arquitectura sin transformer — superó a Llama-class 7B INT8 en 9,4 veces en costo y 8,5 veces en supervivencia bajo deriva. Composición: 1600×.

Esto no es porque Llama sea malo. Es porque los transformers 7B están diseñados para recuperación estática de conocimiento, no para un agente encarnado que debe mantenerse activo 24/7.

"Los transformers mueren después de 11 horas bajo deriva", escriben los autores.

Apertura como estándar

La arquitectura Metabolic AI es cerrada (patente en examen), pero el benchmark es completamente abierto: armazón, escenas de prueba, oráculo, scripts de sensibilidad, codificador VAE de deriva para reproducción. Metodología en PDF con sección sobre amenazas a la validez. Los investigadores invitan a otros a ejecutar sus agentes y colocar los resultados lado a lado.

Esta es la forma en que la ciencia del aprendizaje profundo debe hacerse: propiedad intelectual cerrada, benchmarks abiertos, reproducibilidad a través de código.

Qué significa esto

MELT-1 puede convertirse en un nuevo estándar para robótica e IA encarnada. MMLU muestra si un modelo es "inteligente". MELT-1 muestra si es "viable".

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…