MELT-1: как Metabolic AI тестирует агентов на выживание
Habr выложил статью про MELT-1 — бенчмарк, который меряет не MMLU, а то, как долго AI-агент проживёт под дрифтом распределения. Metabolic AI показал 1600× лучши

MELT-1 — это не MMLU и не MMLU Pro. Это новый открытый бенчмарк для тестирования AI-агентов в реальных условиях: не "что модель знает", а "сколько часов она проживёт, когда всё меняется вокруг".
Три оси вместо одного числа
Обычные бенчмарки (MMLU, ARC, GPQA) предполагают идеальные условия: статичные вопросы, стабильное распределение данных. MELT-1 измеряет три вещи сразу: Экономику вычисления: сколько стоит содержать агент в боевых условиях ($/1M успешных решений) Выживание под дрифтом: сколько часов агент работает без переобучения, прежде чем начнёт ошибаться * Латентность в стрессе: p99 время от сенсора до актуатора при температуре 40°C 30 суток непрерывного инференса, 5 сидов, два температурных профиля. Это не лабораторный тест — это сценарий, в котором настоящий робот должен работать днём и ночью, летом и зимой.
Результаты: 1600× разница
На closed-loop манипуляции (робот хватает и складывает предметы) Metabolic AI — архитектура без трансформера — обогнала Llama-class 7B INT8 в 9.4 раза по стоимости и в 8.5 раза по выживанию под дрифтом. Композитно: 1600×. Это не потому, что Llama плохая. Это потому, что 7B трансформеры спроектированы для статичного knowledge retrieval, а не для воплощённого агента, который нужно держать горячим 24/7.
«Трансформеры умирают через 11 часов под дрифтом», — пишут авторы.
Открытость как стандарт
Архитектура Metabolic AI закрыта (патент на экспертизе), но бенчмарк полностью открыт: харнесс, тестовые сцены, оракул, скрипты чувствительности, VAE-энкодер дрифта для воспроизведения. Методология в PDF с разделом о threats to validity. Исследователи приглашают других прогнать свои агенты и положить результаты рядом. Это способ, которым должна делаться наука о глубоком обучении: закрытая IP, открытые бенчмарки, воспроизводимость через код.
Что это значит MELT-1 может стать новым стандартом для робототехники и embodied AI.
MMLU показывает, "умна" ли модель. MELT-1 показывает, "живучая" ли она.