ZDNet AI→ original

Gemini, ChatGPT e Claude analisam vídeos: quem vence no teste

Qual AI enxerga vídeos melhor? Gemini, ChatGPT e Claude foram comparados em clipes do YouTube — um é claramente melhor.

Gemini, ChatGPT e Claude analisam vídeos: quem vence no teste
Fonte: ZDNet AI. Colagem: Hamidun News.
◐ Ouvir artigo

Três dos maiores modelos de IA — Gemini do Google, ChatGPT do OpenAI e Claude do Anthropic — conseguem analisar vídeos. Mas qual deles se sai melhor nessa tarefa? Através de testes em clipes do YouTube e arquivos locais, um líder claro emergiu.

Como o teste foi conduzido A ideia é simples: dar aos três modelos os

mesmos vídeos e ver quem entende melhor o conteúdo. O autor usou uma variedade diversa de conteúdo de vídeo — desde clipes populares do YouTube até gravações pessoais do disco, filmadas em diferentes condições de iluminação e qualidade. Cada modelo recebeu as mesmas perguntas sobre os vídeos: o que está acontecendo na tela, quem está fazendo o quê, quais detalhes estão visíveis, qual é o significado do que está ocorrendo.

Não apenas 'descreva o vídeo', mas perguntas específicas como 'Quantas pessoas estão no quadro?', 'Qual é a cor da roupa?', 'Sobre o que é o diálogo?

'. O objetivo principal não é avaliar a beleza da interface, mas testar a compreensão real do conteúdo do vídeo. Como o modelo lida com texto em vídeo?

Consegue entender o contexto, em vez de simplesmente contar objetos?

Resultados: há um líder claro Os resultados do teste foram reveladores.

Um modelo supera notavelmente os outros em precisão, velocidade de análise e compreensão contextual. Ele não apenas listou o que vê, mas realmente compreendeu a essência do que estava acontecendo e identificou detalhes importantes que os outros perderam ou interpretaram mal. As diferenças são visíveis em cada parâmetro: Processa vídeos mais rapidamente Reconhece texto na tela com mais precisão Compreende melhor o contexto complexo da cena Menos propenso a inventar detalhes que não estão no vídeo ## Onde os modelos tropeçam Mas aqui está a ressalva: todos os três modelos estão longe de uma análise de vídeo ideal.

Até mesmo o líder do teste pode cometer erros em objetos que se movem rapidamente, vídeo pouco claro ou conteúdo específico — diagramas técnicos, documentos, vídeo de baixa qualidade. O texto em vídeo continua sendo uma tarefa difícil para todos os três. Frequentemente confundem letras, pulam palavras, leem texto incorretamente.

Os erros ocorrem especialmente frequentemente com texto pequeno, ângulos de câmera incomuns ou fontes não padrão. Além disso, o teste foi conduzido em um ponto específico no tempo (provavelmente início de 2024 ou 2025), e todos os três modelos estão melhorando constantemente. Novas versões podem mudar os resultados.

O que é verdade hoje pode ser falso em um mês.

O que isso significa

Se você precisa analisar conteúdo de vídeo com IA, a escolha do modelo é importante. O teste mostrou que um dos três claramente se sai melhor e será mais útil para fluxos de trabalho reais — desde analisar gravações de vídeo até calcular detalhes. No entanto, lembre-se: até mesmo o melhor dos três ainda é uma tecnologia em desenvolvimento. A análise de vídeo continua sendo um campo com potencial para erros. Use os resultados como um guia, mas teste você mesmo os modelos em seus próprios vídeos antes de escolher.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…