Мультимодальные судьи: как AWS оценивает качество описаний изображений
AWS добавил мультимодальные оценщики в Strands Evals — инструмент для оценки AI-моделей. Они проверяют, соответствуют ли описания изображений, счёты и скриншоты

Если вы разрабатываете систему поиска товаров по фото, распознавания документов или анализа диаграмм, вам нужна надёжная проверка качества работы модели. AWS представила решение в Strands Evals — мультимодальных оценщиков, которые проверяют соответствие ответа исходному изображению.
Почему текстовые оценщики не работают для image-to-text
Традиционные оценщики работают только с текстом. Они сравнивают ответ модели с эталонным ответом, но не видят саму картинку. Это создаёт слепое пятно: оценщик не может проверить, содержит ли описание товара точные детали с фото, правильно ли извлечена сумма со счёта или корректно ли суммаризирован скриншот. Модель может дать ответ, который на словах выглядит идеально, но противоречит тому, что видно на картинке. Например, система распознавания счетов может верно назвать формат числа, но ошибиться в его реальном значении, если цифра на документе размыта. Текстовый оценщик такую ошибку не поймёт.
Как мультимодальные судьи видят весь контекст
Новые оценщики AWS используют мультимодальные большие языковые модели (MLLM), которые одновременно видят исходное изображение и текстовый ответ модели. Это позволяет судье проверить не просто грамматику или стиль, но реальное соответствие между картинкой и ответом. Такой судья может: Проверить, соответствует ли описание товара его внешнему виду и цвету Убедиться, что извлечённые из документа цифры и тексты точны Оценить, корректно ли передана информация со скриншота, диаграммы или чертежа Выявить галлюцинации — случаи, когда модель выдаёт информацию, которой вообще нет на изображении * Проверить качество перевода текста, видимого на картинке ## Практическое применение в разных отраслях Мультимодальные оценщики особенно полезны там, где ошибка в распознавании может привести к потерям.
В e-commerce компании обучают модели описывать товары по фото, и неправильное описание снижает конверсию и увеличивает возвраты. В финансовом анализе ошибка в извлечении суммы со счёта может повлечь за собой ошибки в аудите. А в информационных системах неверная обработка документа может заблокировать целый бизнес-процесс.
AWS интегрировала мультимодальные оценщики в Strands Evals, чтобы разработчики могли на этапе разработки или тестирования моделей автоматически проверять, что их система действительно "видит" данные так же, как человек.
Что это значит для разработчиков
Для ML-инженеров это означает, что больше не нужно вручную проверять выборки результатов. Процесс оценки качества можно автоматизировать и сделать объективнее. Мультимодальные судьи становятся стандартным инструментом для валидации моделей компьютерного зрения, как текстовые метрики давно используются в NLP.