Google lançou o Gemini Embedding 2 para RAG multimodal com vídeo, áudio e PDF
O Google atualizou sua linha de embeddings e lançou o Gemini Embedding 2, um modelo que consegue trabalhar não só com texto, mas também com imagens, vídeo…
Processado por IA de Habr AI; editado por Hamidun News
Google lançou o Gemini Embedding 2 — um modelo de embedding que traduz não apenas texto, mas também imagens, áudio, vídeo e PDFs para um único espaço vetorial. Para RAG multimodal, este é um passo importante: uma única consulta agora pode encontrar tanto um artigo em uma base de conhecimento quanto o fragmento necessário de um vídeo de treinamento.
O
Que Mudou Anteriormente, a busca por tipos mistos de conteúdo era construída através de uma longa cadeia de transformações. Vídeos precisavam ser divididos em quadros, áudio precisava ser transcrito, imagens precisavam ser descritas usando um modelo de visão, e então tudo isso precisava ser remontado de volta em texto antes de ser enviado para o modelo de embedding. Essa abordagem funcionava, mas perdia detalhes em cada etapa.
Se o reconhecimento de fala cometesse um erro ou a descrição de um quadro fosse muito genérica, a qualidade da busca caía imediatamente, e os desenvolvedores precisavam manter um pipeline desajeitado de vários serviços. Com o Gemini Embedding 2, parte dessa complexidade desaparece. O modelo pode aceitar arquivos brutos diretamente e construir representações para diferentes formatos em um espaço unificado.
Isso significa que uma consulta de texto como "como configurar autorização" pode corresponder não apenas com a documentação, mas também com um fragmento de vídeo relevante, uma imagem de interface ou uma instrução em PDF. Para equipes que armazenam conhecimento em formatos dispersos, isso remove uma das principais limitações do RAG clássico.
Como
Construir um Sistema Mas o modelo de embedding em si não torna o RAG multimodal útil automaticamente. Um grande modelo de linguagem não pode simplesmente "ler" um MP4 ou imagem da maneira como lê contexto de texto. É por isso que uma arquitetura funcional é construída em dois canais: um lida com busca usando embeddings nativos, o outro prepara uma descrição de texto do objeto encontrado, que pode então ser passada para o LLM para geração de respostas. É precisamente essa combinação de canais que transforma uma demonstração bonita em um produto funcional.
- Indexar arquivos brutos nativamente, sem transformações desnecessárias Armazenar descrições de texto, transcrições e metadados próximos Buscar em um espaço vetorial unificado para todos os tipos de conteúdo * Passar para o LLM não o arquivo, mas sua representação em texto e contexto Na implementação prática, isso se combina bem com o stack padrão de RAG: Python para o pipeline, Gemini API para embeddings e geração de descrições, Supabase ou outro banco de dados vetorial para armazenar índices. Essa abordagem permite que você busque simultaneamente em uma base de conhecimento, capturas de tela, apresentações e vídeos internos sem forçar o usuário a pensar em qual formato a resposta necessária está. No nível do produto, isso não é mais apenas busca de documentos, mas um único ponto de acesso ao conhecimento da empresa.
Onde
Estão os Gargalos A limitação principal não desapareceu em lugar nenhum: o objeto multimídia encontrado ainda precisa ser explicado ao modelo e ao usuário. Se o sistema retorna um vídeo mas não sabe qual fragmento exato contém a resposta, o usuário ainda obtém um resultado fraco. É por isso que a qualidade do RAG multimodal agora depende não apenas de embeddings, mas também de como segmentação, anotação e vinculação cuidadosa da camada de texto ao arquivo de origem são construídas.
Uma consulta como "como configurar autorização" pode retornar tanto um artigo quanto o fragmento de vídeo necessário.
Isso leva a requisitos de engenharia: você precisa pensar em chunking para vídeo e áudio, atualizar descrições quando arquivos mudam, armazenar timecodes e controlar custos. A busca multimodal nativa reduz a perda de informações, mas não elimina a necessidade de dados bons. Se as descrições forem fracas, o LLM não conseguirá montar uma resposta com confiança mesmo com um acerto de busca exato. É por isso que o valor principal do Gemini Embedding 2 se revela onde a equipe está pronta para construir um índice completo, em vez de apenas carregar arquivos e esperar por magia.
O
Que Isso Significa Para bases de conhecimento corporativo, suporte, onboarding e plataformas de treinamento, esta é uma mudança notável. Google está aproximando o RAG de um cenário onde texto, elementos visuais e vídeo se tornam fontes iguais de respostas. Os vencedores serão não aqueles com mais arquivos, mas aqueles que combinarem corretamente a busca multimodal com uma camada de texto clara para o LLM.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.