Gemini, ChatGPT и Claude анализируют видео: кто выигрывает в тесте

Q: Источник материала?

Оригинальная публикация на ZDNet AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-17. Время чтения: 3 мин.

Какая AI лучше видит видео? Сравнили Gemini, ChatGPT и Claude на YouTube-клипах — один явно лучше.

ЖХ

Редакция Hamidun News

AI‑мониторинг · ZDNet AI

2026-05-17· 2 мин

Gemini, ChatGPT и Claude анализируют видео: кто выигрывает в тесте — Источник: ZDNet AI. Коллаж: Hamidun News.

◐ Слушать статью

Три крупнейшие AI-модели — Gemini от Google, ChatGPT от OpenAI и Claude от Anthropic — могут анализировать видео. Но какая из них справляется с этим лучше? В ходе тестирования на YouTube-клипах и локальных файлах выявлен явный лидер.

Как проводился тест

Идея простая: дать всем трём моделям одинаковые видео и посмотреть, кто лучше поймёт содержимое. Автор использовал разнообразный видео-контент — от популярных YouTube-клипов до собственных записей с диска, снятых в разных условиях освещения и качества. Каждой модели предложили одинаковые вопросы про видео: что происходит на экране, кто и что делает, какие детали видны, какой смысл в происходящем. Не просто 'опиши видео', а конкретные вопросы типа 'Сколько людей на кадре?', 'Какого цвета одежда?', 'О чём идёт диалог?'. Главная цель — не оценить красоту интерфейса, а проверить реальное понимание видео-контента. Как модель справляется с текстом на видео? Может ли понять контекст, а не просто пересчитать объекты?

Результаты: есть явный лидер Результаты теста оказались показательными.

Одна модель заметно превосходит других в точности, скорости анализа и понимании контекста. Она не просто перечислила, что видит, но действительно поняла суть происходящего и выловила важные детали, которые другие пропустили или неправильно интерпретировали. Различия видны в каждом параметре: Быстрее обрабатывает видео Точнее распознаёт текст на экране Лучше понимает сложный контекст сцены Реже выдумывает детали, которых нет в видео ## Где модели спотыкаются Но вот оговорка: все три модели далеки от идеального анализа видео.

Даже лидер теста может ошибиться на быстро движущихся объектах, нечётком видео или специфическом контенте — технических диаграммах, документах, видео в плохом качестве. Текст на видео остаётся сложной задачей для всех трёх. Они часто путают буквы, пропускают слова, неправильно читают текст.

Особенно часто ошибки случаются с мелким текстом, необычным углом камеры или нестандартными шрифтами. Кроме того, тест проводился в конкретный момент времени (вероятно, начало 2024 или 2025 года), а все три модели постоянно улучшаются. Новые версии могут изменить результаты.

То, что верно сегодня, может быть неверно через месяц.

Что это значит Если вам нужно анализировать видео-контент с помощью AI, выбор модели имеет значение.

Тест показал, что один из трёх явно справляется лучше и будет полезнее для реальных рабочих процессов — от анализа видеозаписей до вычисления деталей. Однако помните: даже лучшая из трёх — это всё ещё развивающаяся технология. Видео-анализ остаётся областью с потенциалом ошибок. Используйте результаты как ориентир, но сами протестируйте модели на своих видео, прежде чем выбирать.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com