MELT-1 : comment Metabolic AI teste la survie des agents

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-17. Время чтения: 2 мин.

Habr a publié un article sur MELT-1, un benchmark qui ne mesure pas le MMLU, mais combien de temps un agent AI survit sous drift de distribution. Metabolic AI a

Rédaction de Hamidun News

Veille IA · Habr AI

2026-05-17· 1 min

MELT-1 : comment Metabolic AI teste la survie des agents — Source : Habr AI. Collage: Hamidun News.

◐ Écouter l'article

MELT-1 — ce n'est pas MMLU et ce n'est pas MMLU Pro. C'est un nouveau benchmark ouvert pour tester des agents IA dans des conditions réelles : non pas "ce que sait le modèle", mais "combien d'heures survivra-t-il quand tout change autour de lui".

Trois axes au lieu d'un nombre

Les benchmarks conventionnels (MMLU, ARC, GPQA) supposent des conditions idéales : questions statiques, distribution de données stable. MELT-1 mesure trois choses à la fois :

Économie du calcul : combien coûte l'entretien d'un agent en conditions opérationnelles ($/1M de solutions réussies)
Survie sous dérive : combien d'heures l'agent fonctionne sans réentraînement avant de commencer à faire des erreurs
Latence sous stress : temps p99 du capteur à l'actionneur à 40°C sur 30 jours consécutifs d'inférence, 5 graines, deux profils de température.

Ce n'est pas un test de laboratoire — c'est un scénario dans lequel un vrai robot doit fonctionner jour et nuit, été et hiver.

Résultats : différence de 1600×

Sur une manipulation en boucle fermée (robot saisit et empile des objets), Metabolic AI — une architecture sans transformer — a surpassé Llama-class 7B INT8 par 9,4× en coût et par 8,5× en survie sous dérive. Composite : 1600×.

Ce n'est pas parce que Llama est mauvais. C'est parce que les transformers 7B sont conçus pour la récupération statique de connaissances, et non pour un agent incarné qu'il faut maintenir actif 24/7.

«

Les transformers meurent après 11 heures sous dérive », écrivent les auteurs.

L'ouverture comme norme

L'architecture Metabolic AI est fermée (brevet en cours d'examen), mais le benchmark est entièrement ouvert : harnais, scènes de test, oracle, scripts de sensibilité, codeur VAE de dérive pour la reproduction. Méthodologie en PDF avec section sur les menaces à la validité. Les chercheurs invitent d'autres à exécuter leurs agents et à placer les résultats côte à côte.

C'est ainsi que la science de l'apprentissage profond devrait être menée : propriété intellectuelle fermée, benchmarks ouverts, reproductibilité par le code.

Qu'est-ce que cela signifie

MELT-1 pourrait devenir une nouvelle norme pour la robotique et l'IA incarnée. MMLU montre si un modèle est « intelligent ». MELT-1 montre s'il est « viable ».

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com