Google выпустила Gemini Embedding 2 для мультимодального RAG с видео, аудио и PDF
Google обновила линейку эмбеддингов и выпустила Gemini Embedding 2 — модель, которая умеет работать не только с текстом, но и с изображениями, видео, аудио и PD

Google выпустила Gemini Embedding 2 — модель эмбеддингов, которая переводит в одно векторное пространство не только текст, но и изображения, аудио, видео и PDF. Для мультимодального RAG это важный шаг: один запрос теперь может находить и статью в базе знаний, и нужный фрагмент обучающего ролика.
Что поменялось
Раньше поиск по смешанным типам контента строился через длинную цепочку преобразований. Видео приходилось разбивать на кадры, аудио — транскрибировать, картинки — описывать через vision-модель, а потом собирать всё это обратно в текст и только после этого отправлять в embedding-модель. Такая схема работала, но теряла детали на каждом этапе.
Если распознавание речи ошиблось или описание кадра оказалось слишком общим, качество поиска сразу падало, а разработчику приходилось поддерживать громоздкий пайплайн из нескольких сервисов. С Gemini Embedding 2 часть этой сложности уходит. Модель умеет принимать исходные файлы напрямую и строить представления для разных форматов в едином пространстве.
Это означает, что текстовый запрос вроде «как настроить авторизацию» может сопоставиться не только с документацией, но и с релевантным видеофрагментом, изображением интерфейса или PDF-инструкцией. Для команд, которые хранят знания в разрозненных форматах, это снимает одно из главных ограничений классического RAG.
Как собрать систему Но сама embedding-модель не делает мультимодальный RAG полезным автоматически.
Большая языковая модель не умеет просто «прочитать» MP4 или изображение так, как она читает текстовый контекст. Поэтому рабочая архитектура строится в два канала: один отвечает за поиск по нативным эмбеддингам, второй — за подготовку текстового описания найденного объекта, которое потом уже можно передать LLM для генерации ответа. Именно сочетание этих каналов превращает красивое демо в рабочий продукт.
- Индексировать исходные файлы нативно, без лишних преобразований Хранить рядом текстовые описания, транскрипты и метаданные Искать по единому векторному пространству для всех типов контента * Передавать в LLM не файл, а его текстовое представление и контекст В практической реализации это хорошо сочетается с обычным стеком для RAG: Python для пайплайна, Gemini API для эмбеддингов и генерации описаний, Supabase или другая векторная база для хранения индексов. Такой подход позволяет искать одновременно по базе знаний, скриншотам, презентациям и внутренним видео, не заставляя пользователя думать, в каком формате лежит нужный ответ. На уровне продукта это уже не просто поиск по документам, а единая точка доступа к знаниям компании.
Где узкие места
Главное ограничение никуда не исчезло: найденный мультимедийный объект ещё нужно объяснить модели и человеку. Если система вернула ролик, но не знает, в каком именно фрагменте содержится ответ, пользователь всё равно получит слабый результат. Поэтому качество мультимодального RAG теперь зависит не только от эмбеддингов, но и от того, насколько аккуратно построены сегментация, аннотация и привязка текстового слоя к исходному файлу.
Запрос «как настроить авторизацию» может вернуть и статью, и нужный фрагмент видео.
Отсюда следуют и инженерные требования: нужно продумать чанкинг для видео и аудио, обновление описаний при замене файлов, хранение таймкодов, а также контроль стоимости. Нативный мультимодальный поиск сокращает потери информации, но не отменяет необходимость в хороших данных. Если описания слабые, LLM не сможет уверенно собрать ответ даже при точном попадании поиска. Поэтому основная ценность Gemini Embedding 2 раскрывается там, где команда готова строить полноценный индекс, а не просто загрузить файлы и ждать магии.
Что это значит
Для корпоративных баз знаний, поддержки, онбординга и обучающих платформ это заметный сдвиг. Google приближает RAG к сценарию, где текст, визуалы и видео становятся равноправными источниками ответа. Победят не те, у кого больше файлов, а те, кто правильно соединит мультимодальный поиск с понятным текстовым слоем для LLM.