Habr AI→ оригинал

WACV 2026 à Tucson a montré le virage de la vision par ordinateur vers la multimodalité et les données synthétiques

WACV 2026 à Tucson a montré où va la vision par ordinateur appliquée : la multimodalité est devenue la norme, les données synthétiques se déplacent vers le cent

WACV 2026 à Tucson a montré le virage de la vision par ordinateur vers la multimodalité et les données synthétiques
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Конференция WACV 2026 в Тусоне подтвердила, что computer vision быстро смещается в сторону мультимодальных моделей, синтетических данных и более экономных вычислений. В репортаже участника из FusionBrain AIRI эти тренды сочетаются с двумя собственными работами лаборатории — про отбор ключевых кадров для длинных видео и про анализ того, что на самом деле сохраняют vision-энкодеры.

Формат и масштаб WACV традиционно считается более прикладным

родственником CVPR: здесь меньше теории ради теории и больше систем, датасетов и инженерных решений, которые можно перенести в реальные продукты. По описанию участника, акцепт на уровне 25–30% делает конференцию конкурентной, но не перегруженной, а сам формат на 200–300 человек заметно отличается от гигантских событий вроде NeurIPS или ICCV. Все активности проходили в одном месте — JW Marriott Starr Pass Resort посреди пустыни Сонора недалеко от Тусона.

WACV — это «конференция правильного размера».

Именно камерность стала одной из главных сильных сторон мероприятия. На такой площадке проще подойти к автору постера, обсудить архитектуру модели или сравнить результаты без длинных очередей и шума большого ивента. Локация тоже сыграла свою роль: курортный комплекс в пустыне оказался красивым, но изолированным, так что почти все участники добирались на такси или Uber. Взамен они получали редкое сочетание плотной научной программы и почти лабораторной атмосферы для разговоров.

Главные научные темы

Если собрать в одну картину доклады и постеры, WACV 2026 показала довольно чёткий набор приоритетов для Computer Vision. Фокус смещается с простого наращивания объёма данных к повышению эффективности выборки, к генерации обучающих примеров через диффузионные модели и к динамическому управлению вычислениями внутри трансформеров. Это уже не набор отдельных экспериментов, а общее направление, которое повторялось в работах из разных поддоменов — от медицины до видеоаналитики.

  • Мультимодальность стала базовым режимом, а не экзотикой для отдельных лабораторий.
  • Синтетические данные всё чаще используются как основа для cold start-сценариев без реальной разметки.
  • Эффективность моделей уходит дальше квантизации в сторону token pruning, token merging и adaptive patch sizes.
  • Video understanding остаётся открытой задачей, несмотря на рост числа моделей и бенчмарков. Особенно заметен разворот в сторону synthetic-only и hybrid-пайплайнов. На конференции обсуждали кейсы, где искусственно сгенерированные данные уже обходят реальные выборки в узких доменах вроде медицины, спутниковых снимков и промышленного контроля качества. Параллельно зрелее стали подходы к ускорению ViT-моделей: вместо простой компрессии всё чаще применяются методы, которые меняют плотность вычислений в зависимости от содержимого кадра. При этом видео остаётся сложной зоной: данных становится больше, но полноценное машинное «понимание» длинного видеоконтекста по-прежнему далеко от решённой задачи.

Работы AIRI FusionBrain AIRI привезла на WACV две работы, обе в формате постеров.

Первая, MaxInfo, предлагает training-free способ выбирать ключевые кадры в длинных видео для Video Large Language Models. Вместо равномерного отбора каждого N-го кадра метод сначала получает эмбеддинги через ViT-энкодер, затем сжимает представление через SVD и после этого применяет алгоритм rect_maxvol, чтобы выбрать максимально разнообразные и информативные кадры. По данным авторов, такой plug-and-play модуль даёт прибавку примерно на 3–5% на LongVideoBench для LLaVA-Video и Qwen2-VL без изменения архитектуры.

Вторая работа, Feature Inversion as a Lens on Vision Encoders, отвечает на более фундаментальный вопрос: что именно хранит в себе vision-энкодер. Исследователи показывают, что из замороженных признаков ViT можно реконструировать исходные изображения, а простые линейные преобразования в пространстве признаков приводят к предсказуемым изменениям в пиксельном пространстве, например к управляемым цветовым сдвигам. Такой результат важен не только как красивая демонстрация геометрии feature space, но и как практический ориентир при выборе энкодеров: модели с image-centric objectives сохраняют больше визуальной информации.

Интерес к этим постерам, судя по репортажу, был заметным: к стендам подходили, обсуждали детали и сканировали QR-коды с материалами. Это хорошо показывает сам дух WACV: здесь ценится не только громкое имя лаборатории, но и возможность спокойно разобрать идею с автором на месте. Для небольших исследовательских команд такой формат часто полезнее, чем выступление на слишком большой площадке, где контакт с аудиторией быстро растворяется в масштабе.

Что это значит WACV 2026 показала, что прикладное компьютерное зрение

входит в фазу, где выигрывают не самые тяжёлые модели, а те, что лучше сочетают мультимодальность, синтетические данные и адаптивные вычисления. Для команд, которые строят продукты на CV и video AI, это сигнал смотреть не только на качество бенчмарков, но и на то, как модель работает с длинным контекстом, дефицитом разметки и реальными ограничениями по ресурсам.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…