Apple presentó RubiCap: modelos compactos de AI superan a modelos gigantes en la descripción de imágenes
Apple presentó RubiCap — un nuevo método de entrenamiento de modelos para la descripción detallada de imágenes. La empresa afirma que las versiones de 3 y 7 mil
Apple представила RubiCap — новый способ обучать модели, которые не просто распознают картинку, а дают плотное и детальное описание сцены. По данным компании, даже версии на 3 и 7 млрд параметров в ряде тестов обошли более крупные мультимодальные системы конкурентов.
Зачем это нужно Обычная подпись к изображению отвечает на вопрос «что в кадре» одной общей фразой.
Dense image captioning устроен сложнее: модели нужно выделить объекты, зоны и взаимосвязи внутри сцены, а затем описать их так, чтобы текст был полезен не только человеку, но и другим ИИ-системам. Такой формат важен для обучения визуально-языковых моделей, генераторов изображений по тексту и инструментов доступности, которым нужны более точные описания фотографий и интерфейсов. Проблема в том, что качественные подробные аннотации стоят дорого, а классический подход через supervised distillation часто даёт слишком однообразные ответы. Модель может повторять стиль учителя, но при этом хуже переносить знания на новые сцены и чаще упускать детали. В Apple решили обойти это ограничение и сместить фокус с копирования «правильного ответа» на более гибкую систему оценки, где модель понимает, что именно в её описании было слабым.
Как работает
RubiCap Для обучения инженеры Apple взяли 50 тысяч изображений из наборов PixMoCap и DenseFusion-4V-100K. Для каждой картинки несколько сильных моделей сначала генерировали собственные варианты описаний. В этот набор вошли Gemini 2.
5 Pro, GPT-5, Qwen2.5-VL-72B-Instruct, Gemma-3-27B-IT, Qwen3-VL-30B-A3B-Instruct, а также текущая версия самой обучаемой модели Apple. Дальше система не искала один эталонный ответ, а собирала из этих версий набор сильных сторон, совпадений и пропущенных деталей.
Затем в пайплайне появлялись две роли. Первая модель выступала как «автор рубрики»: заново смотрела на изображение и на все варианты подписей, выделяла, что в них совпадает, где есть ошибки и какие критерии вообще стоит проверить. Вторая модель работала как судья и оценивала новую подпись по каждому критерию отдельно.
Так RubiCap получала не грубую оценку «хорошо/плохо», а структурированную обратную связь, пригодную для обучения с подкреплением. 50 тысяч изображений стали базой для обучения Несколько сильных VLM сформировали пул кандидатных описаний «Автор рубрики» превращал сильные и слабые стороны в явные критерии «Судья» выставлял оценки по каждому критерию и формировал сигнал награды * На выходе Apple обучила RubiCap-2B, RubiCap-3B и RubiCap-7B ## Что показали тесты По данным Apple, RubiCap получила лучшую долю побед на бенчмарке CapArena и обошла не только supervised distillation и прошлые RL-подходы, но и решения на основе экспертных человеческих аннотаций и описаний, усиленных GPT-4V. Отдельно компания выделяет метрику word efficiency на CaptionQA: модель RubiCap-7B сопоставима с Qwen2.
5-VL-32B-Instruct, а RubiCap-3B в этом тесте оказалась сильнее собственной версии на 7 млрд параметров. Это важный сигнал: размер модели сам по себе не гарантирует лучший результат. Практический смысл тут в экономике и развёртывании.
Если компактная модель умеет описывать изображения на уровне или выше систем, которые в разы крупнее, то её дешевле запускать, проще адаптировать под конкретные задачи и реальнее довести до работы на ограниченном железе. Apple отдельно пишет, что такие подписи полезны для предобучения vision-language моделей и text-to-image систем. Плюс у компании есть очевидный интерес к функциям доступности, где точные описания экрана и фото особенно ценны.
Что это значит
RubiCap показывает, что гонка в мультимодальном ИИ идёт не только за числом параметров, но и за качеством сигнала обучения. Если подход Apple подтвердится за пределами лабораторных тестов, рынок получит ещё один аргумент в пользу небольших специализированных моделей: они могут быть дешевле, быстрее и при этом точнее в конкретной прикладной задаче.