Apple presentó RubiCap: modelos compactos de AI superan a modelos gigantes en la descripción de imágenes

Q: Источник материала?

Оригинальная публикация на 3DNews AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-02. Время чтения: 3 мин.

Apple presentó RubiCap — un nuevo método de entrenamiento de modelos para la descripción detallada de imágenes. La empresa afirma que las versiones de 3 y 7 mil

ЖХ

Редакция Hamidun News

AI‑мониторинг · 3DNews AI

2026-05-02· 2 мин

◐ Слушать статью

Apple представила RubiCap — новый способ обучать модели, которые не просто распознают картинку, а дают плотное и детальное описание сцены. По данным компании, даже версии на 3 и 7 млрд параметров в ряде тестов обошли более крупные мультимодальные системы конкурентов.

Зачем это нужно Обычная подпись к изображению отвечает на вопрос «что в кадре» одной общей фразой.

Dense image captioning устроен сложнее: модели нужно выделить объекты, зоны и взаимосвязи внутри сцены, а затем описать их так, чтобы текст был полезен не только человеку, но и другим ИИ-системам. Такой формат важен для обучения визуально-языковых моделей, генераторов изображений по тексту и инструментов доступности, которым нужны более точные описания фотографий и интерфейсов. Проблема в том, что качественные подробные аннотации стоят дорого, а классический подход через supervised distillation часто даёт слишком однообразные ответы. Модель может повторять стиль учителя, но при этом хуже переносить знания на новые сцены и чаще упускать детали. В Apple решили обойти это ограничение и сместить фокус с копирования «правильного ответа» на более гибкую систему оценки, где модель понимает, что именно в её описании было слабым.

Как работает

RubiCap Для обучения инженеры Apple взяли 50 тысяч изображений из наборов PixMoCap и DenseFusion-4V-100K. Для каждой картинки несколько сильных моделей сначала генерировали собственные варианты описаний. В этот набор вошли Gemini 2.

5 Pro, GPT-5, Qwen2.5-VL-72B-Instruct, Gemma-3-27B-IT, Qwen3-VL-30B-A3B-Instruct, а также текущая версия самой обучаемой модели Apple. Дальше система не искала один эталонный ответ, а собирала из этих версий набор сильных сторон, совпадений и пропущенных деталей.

Затем в пайплайне появлялись две роли. Первая модель выступала как «автор рубрики»: заново смотрела на изображение и на все варианты подписей, выделяла, что в них совпадает, где есть ошибки и какие критерии вообще стоит проверить. Вторая модель работала как судья и оценивала новую подпись по каждому критерию отдельно.

Так RubiCap получала не грубую оценку «хорошо/плохо», а структурированную обратную связь, пригодную для обучения с подкреплением. 50 тысяч изображений стали базой для обучения Несколько сильных VLM сформировали пул кандидатных описаний «Автор рубрики» превращал сильные и слабые стороны в явные критерии «Судья» выставлял оценки по каждому критерию и формировал сигнал награды * На выходе Apple обучила RubiCap-2B, RubiCap-3B и RubiCap-7B ## Что показали тесты По данным Apple, RubiCap получила лучшую долю побед на бенчмарке CapArena и обошла не только supervised distillation и прошлые RL-подходы, но и решения на основе экспертных человеческих аннотаций и описаний, усиленных GPT-4V. Отдельно компания выделяет метрику word efficiency на CaptionQA: модель RubiCap-7B сопоставима с Qwen2.

5-VL-32B-Instruct, а RubiCap-3B в этом тесте оказалась сильнее собственной версии на 7 млрд параметров. Это важный сигнал: размер модели сам по себе не гарантирует лучший результат. Практический смысл тут в экономике и развёртывании.

Если компактная модель умеет описывать изображения на уровне или выше систем, которые в разы крупнее, то её дешевле запускать, проще адаптировать под конкретные задачи и реальнее довести до работы на ограниченном железе. Apple отдельно пишет, что такие подписи полезны для предобучения vision-language моделей и text-to-image систем. Плюс у компании есть очевидный интерес к функциям доступности, где точные описания экрана и фото особенно ценны.

Что это значит

RubiCap показывает, что гонка в мультимодальном ИИ идёт не только за числом параметров, но и за качеством сигнала обучения. Если подход Apple подтвердится за пределами лабораторных тестов, рынок получит ещё один аргумент в пользу небольших специализированных моделей: они могут быть дешевле, быстрее и при этом точнее в конкретной прикладной задаче.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com