Habr AI→ оригинал

أطلقت Google نموذج Gemini Embedding 2 لـ RAG متعدد الوسائط مع الفيديو والصوت وPDF

حدّثت Google مجموعة نماذج embeddings الخاصة بها وأطلقت Gemini Embedding 2، وهو نموذج يستطيع العمل ليس فقط مع النصوص، بل أيضًا مع الصور والفيديو والصوت وPDF. بال

أطلقت Google نموذج Gemini Embedding 2 لـ RAG متعدد الوسائط مع الفيديو والصوت وPDF
Источник: Habr AI. Коллаж: Hamidun News.

Google выпустила Gemini Embedding 2 — модель эмбеддингов, которая переводит в одно векторное пространство не только текст, но и изображения, аудио, видео и PDF. Для мультимодального RAG это важный шаг: один запрос теперь может находить и статью в базе знаний, и нужный фрагмент обучающего ролика.

Что поменялось

Раньше поиск по смешанным типам контента строился через длинную цепочку преобразований. Видео приходилось разбивать на кадры, аудио — транскрибировать, картинки — описывать через vision-модель, а потом собирать всё это обратно в текст и только после этого отправлять в embedding-модель. Такая схема работала, но теряла детали на каждом этапе.

Если распознавание речи ошиблось или описание кадра оказалось слишком общим, качество поиска сразу падало, а разработчику приходилось поддерживать громоздкий пайплайн из нескольких сервисов. С Gemini Embedding 2 часть этой сложности уходит. Модель умеет принимать исходные файлы напрямую и строить представления для разных форматов в едином пространстве.

Это означает, что текстовый запрос вроде «как настроить авторизацию» может сопоставиться не только с документацией, но и с релевантным видеофрагментом, изображением интерфейса или PDF-инструкцией. Для команд, которые хранят знания в разрозненных форматах, это снимает одно из главных ограничений классического RAG.

Как собрать систему Но сама embedding-модель не делает мультимодальный RAG полезным автоматически.

Большая языковая модель не умеет просто «прочитать» MP4 или изображение так, как она читает текстовый контекст. Поэтому рабочая архитектура строится в два канала: один отвечает за поиск по нативным эмбеддингам, второй — за подготовку текстового описания найденного объекта, которое потом уже можно передать LLM для генерации ответа. Именно сочетание этих каналов превращает красивое демо в рабочий продукт.

  • Индексировать исходные файлы нативно, без лишних преобразований Хранить рядом текстовые описания, транскрипты и метаданные Искать по единому векторному пространству для всех типов контента * Передавать в LLM не файл, а его текстовое представление и контекст В практической реализации это хорошо сочетается с обычным стеком для RAG: Python для пайплайна, Gemini API для эмбеддингов и генерации описаний, Supabase или другая векторная база для хранения индексов. Такой подход позволяет искать одновременно по базе знаний, скриншотам, презентациям и внутренним видео, не заставляя пользователя думать, в каком формате лежит нужный ответ. На уровне продукта это уже не просто поиск по документам, а единая точка доступа к знаниям компании.

Где узкие места

Главное ограничение никуда не исчезло: найденный мультимедийный объект ещё нужно объяснить модели и человеку. Если система вернула ролик, но не знает, в каком именно фрагменте содержится ответ, пользователь всё равно получит слабый результат. Поэтому качество мультимодального RAG теперь зависит не только от эмбеддингов, но и от того, насколько аккуратно построены сегментация, аннотация и привязка текстового слоя к исходному файлу.

Запрос «как настроить авторизацию» может вернуть и статью, и нужный фрагмент видео.

Отсюда следуют и инженерные требования: нужно продумать чанкинг для видео и аудио, обновление описаний при замене файлов, хранение таймкодов, а также контроль стоимости. Нативный мультимодальный поиск сокращает потери информации, но не отменяет необходимость в хороших данных. Если описания слабые, LLM не сможет уверенно собрать ответ даже при точном попадании поиска. Поэтому основная ценность Gemini Embedding 2 раскрывается там, где команда готова строить полноценный индекс, а не просто загрузить файлы и ждать магии.

Что это значит

Для корпоративных баз знаний, поддержки, онбординга и обучающих платформ это заметный сдвиг. Google приближает RAG к сценарию, где текст, визуалы и видео становятся равноправными источниками ответа. Победят не те, у кого больше файлов, а те, кто правильно соединит мультимодальный поиск с понятным текстовым слоем для LLM.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…