Habr AI→ оригинал

MELT-1: как Metabolic AI тестирует агентов на выживание

Habr выложил статью про MELT-1 — бенчмарк, который меряет не MMLU, а то, как долго AI-агент проживёт под дрифтом распределения. Metabolic AI показал 1600× лучши

MELT-1: как Metabolic AI тестирует агентов на выживание
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

MELT-1 — это не MMLU и не MMLU Pro. Это новый открытый бенчмарк для тестирования AI-агентов в реальных условиях: не "что модель знает", а "сколько часов она проживёт, когда всё меняется вокруг".

Три оси вместо одного числа

Обычные бенчмарки (MMLU, ARC, GPQA) предполагают идеальные условия: статичные вопросы, стабильное распределение данных. MELT-1 измеряет три вещи сразу: Экономику вычисления: сколько стоит содержать агент в боевых условиях ($/1M успешных решений) Выживание под дрифтом: сколько часов агент работает без переобучения, прежде чем начнёт ошибаться * Латентность в стрессе: p99 время от сенсора до актуатора при температуре 40°C 30 суток непрерывного инференса, 5 сидов, два температурных профиля. Это не лабораторный тест — это сценарий, в котором настоящий робот должен работать днём и ночью, летом и зимой.

Результаты: 1600× разница

На closed-loop манипуляции (робот хватает и складывает предметы) Metabolic AI — архитектура без трансформера — обогнала Llama-class 7B INT8 в 9.4 раза по стоимости и в 8.5 раза по выживанию под дрифтом. Композитно: 1600×. Это не потому, что Llama плохая. Это потому, что 7B трансформеры спроектированы для статичного knowledge retrieval, а не для воплощённого агента, который нужно держать горячим 24/7.

«Трансформеры умирают через 11 часов под дрифтом», — пишут авторы.

Открытость как стандарт

Архитектура Metabolic AI закрыта (патент на экспертизе), но бенчмарк полностью открыт: харнесс, тестовые сцены, оракул, скрипты чувствительности, VAE-энкодер дрифта для воспроизведения. Методология в PDF с разделом о threats to validity. Исследователи приглашают других прогнать свои агенты и положить результаты рядом. Это способ, которым должна делаться наука о глубоком обучении: закрытая IP, открытые бенчмарки, воспроизводимость через код.

Что это значит MELT-1 может стать новым стандартом для робототехники и embodied AI.

MMLU показывает, "умна" ли модель. MELT-1 показывает, "живучая" ли она.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…