Habr AI→ оригинал

Google lanzó Gemini Embedding 2 para RAG multimodal con video, audio y PDF

Google actualizó su línea de embeddings y lanzó Gemini Embedding 2, un modelo que puede trabajar no solo con texto, sino también con imágenes, video, audio y PD

Google lanzó Gemini Embedding 2 para RAG multimodal con video, audio y PDF
Источник: Habr AI. Коллаж: Hamidun News.

Google выпустила Gemini Embedding 2 — модель эмбеддингов, которая переводит в одно векторное пространство не только текст, но и изображения, аудио, видео и PDF. Для мультимодального RAG это важный шаг: один запрос теперь может находить и статью в базе знаний, и нужный фрагмент обучающего ролика.

Что поменялось

Раньше поиск по смешанным типам контента строился через длинную цепочку преобразований. Видео приходилось разбивать на кадры, аудио — транскрибировать, картинки — описывать через vision-модель, а потом собирать всё это обратно в текст и только после этого отправлять в embedding-модель. Такая схема работала, но теряла детали на каждом этапе.

Если распознавание речи ошиблось или описание кадра оказалось слишком общим, качество поиска сразу падало, а разработчику приходилось поддерживать громоздкий пайплайн из нескольких сервисов. С Gemini Embedding 2 часть этой сложности уходит. Модель умеет принимать исходные файлы напрямую и строить представления для разных форматов в едином пространстве.

Это означает, что текстовый запрос вроде «как настроить авторизацию» может сопоставиться не только с документацией, но и с релевантным видеофрагментом, изображением интерфейса или PDF-инструкцией. Для команд, которые хранят знания в разрозненных форматах, это снимает одно из главных ограничений классического RAG.

Как собрать систему Но сама embedding-модель не делает мультимодальный RAG полезным автоматически.

Большая языковая модель не умеет просто «прочитать» MP4 или изображение так, как она читает текстовый контекст. Поэтому рабочая архитектура строится в два канала: один отвечает за поиск по нативным эмбеддингам, второй — за подготовку текстового описания найденного объекта, которое потом уже можно передать LLM для генерации ответа. Именно сочетание этих каналов превращает красивое демо в рабочий продукт.

  • Индексировать исходные файлы нативно, без лишних преобразований Хранить рядом текстовые описания, транскрипты и метаданные Искать по единому векторному пространству для всех типов контента * Передавать в LLM не файл, а его текстовое представление и контекст В практической реализации это хорошо сочетается с обычным стеком для RAG: Python для пайплайна, Gemini API для эмбеддингов и генерации описаний, Supabase или другая векторная база для хранения индексов. Такой подход позволяет искать одновременно по базе знаний, скриншотам, презентациям и внутренним видео, не заставляя пользователя думать, в каком формате лежит нужный ответ. На уровне продукта это уже не просто поиск по документам, а единая точка доступа к знаниям компании.

Где узкие места

Главное ограничение никуда не исчезло: найденный мультимедийный объект ещё нужно объяснить модели и человеку. Если система вернула ролик, но не знает, в каком именно фрагменте содержится ответ, пользователь всё равно получит слабый результат. Поэтому качество мультимодального RAG теперь зависит не только от эмбеддингов, но и от того, насколько аккуратно построены сегментация, аннотация и привязка текстового слоя к исходному файлу.

Запрос «как настроить авторизацию» может вернуть и статью, и нужный фрагмент видео.

Отсюда следуют и инженерные требования: нужно продумать чанкинг для видео и аудио, обновление описаний при замене файлов, хранение таймкодов, а также контроль стоимости. Нативный мультимодальный поиск сокращает потери информации, но не отменяет необходимость в хороших данных. Если описания слабые, LLM не сможет уверенно собрать ответ даже при точном попадании поиска. Поэтому основная ценность Gemini Embedding 2 раскрывается там, где команда готова строить полноценный индекс, а не просто загрузить файлы и ждать магии.

Что это значит

Для корпоративных баз знаний, поддержки, онбординга и обучающих платформ это заметный сдвиг. Google приближает RAG к сценарию, где текст, визуалы и видео становятся равноправными источниками ответа. Победят не те, у кого больше файлов, а те, кто правильно соединит мультимодальный поиск с понятным текстовым слоем для LLM.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…