Модели

Визуально-языковая модель (VLM)

Визуально-языковая модель (VLM) — нейронная сеть, совместно обученная на изображениях и тексте, способная связывать визуальное содержимое с языковыми концепциями: отвечать на вопросы об изображениях, описывать их и выполнять визуальные инструкции.

VLM — класс моделей, объединяющих визуальное восприятие и языковое понимание. Архитектурно VLM обычно состоит из трёх компонентов: визуального энкодера (чаще всего Vision Transformer — ViT), проекционного адаптера, перекодирующего визуальные признаки в пространство языковой модели, и самой LLM. Обучение проводится на парах «изображение — текстовое описание» и на задачах визуального вопросно-ответного диалога (Visual QA).

Ключевая идея — выравнивание (alignment) визуального и текстового пространств признаков. CLIP (OpenAI, 2021) продемонстрировал, что контрастное обучение на 400 млн пар изображение–подпись создаёт совместное представление, пригодное для zero-shot классификации без дополнительной настройки. Flamingo (DeepMind, 2022) расширил возможности до многошагового визуального диалога; LLaVA (2023), GPT-4V (OpenAI, 2023) и Qwen-VL (Alibaba, 2023) добавили понимание сложных документов и диаграмм.

VLM применяются для автоматической подписи изображений, оптического распознавания символов с пониманием контекста, анализа медицинских снимков, навигации роботов и контроля качества на производстве. В промышленных системах VLM заменяют отдельные OCR-конвейеры: модель извлекает структурированные данные из сканов накладных и медицинских карт без дополнительной постобработки.

К 2026 году границы между VLM и мультимодальными моделями практически размылись. Открытые веса (Pixtral 12B от Mistral, InternVL-2, PaliGemma 2 от Google) достигли качества, сопоставимого с проприетарными системами на бенчмарках MMMU и DocVQA, при запуске на потребительских GPU с 16–24 ГБ VRAM.

Пример

VLM на базе PaliGemma развёртывают в системах контроля качества на производственных линиях: камера фиксирует деталь, модель отвечает на вопрос «Есть ли трещины на поверхности?» и автоматически формирует акт несоответствия без участия оператора.

Связанные термины

← Глоссарий