Модели

Мультимодальная модель

Мультимодальная модель — нейросетевая система, обрабатывающая и генерирующая данные нескольких типов (текст, изображения, аудио, видео) в рамках единой архитектуры, а не раздельными специализированными модулями.

Мультимодальная модель объединяет обработку разнородных типов данных — текста, изображений, аудио, видео, документов — в единой нейросети. В отличие от пайплайна из отдельных специализированных компонентов (OCR + языковая модель + speech-to-text), мультимодальная система обрабатывает входные сигналы совместно, что позволяет строить перекрёстные зависимости между модальностями и снижает накопленные ошибки.

Архитектурно большинство современных систем строятся на трансформерах. Каждая модальность преобразуется в токены соответствующим энкодером — визуальным (Vision Transformer, ViT), акустическим и т.д. — после чего токены конкатенируются или перемежаются с текстовыми и поступают в общий декодер. GPT-4o (OpenAI, 2024) и Gemini 1.5 Pro (Google DeepMind, 2024) принимают произвольные комбинации текста, изображений и аудио; Claude 3.5 (Anthropic, 2024–2025) обрабатывает текст, изображения и документы.

Мультимодальность расширяет применимость AI: единая модель описывает изображения, извлекает данные из таблиц в PDF, транскрибирует речь и анализирует видеозаписи. Это устраняет необходимость в оркестрирующих пайплайнах и снижает задержку при многошаговых задачах, поскольку модальности обрабатываются в одном контексте, а не передаются между отдельными сервисами.

К 2026 году все ведущие frontier-модели являются мультимодальными по умолчанию. Открытые веса (LLaVA, Qwen-VL, InternVL, Pixtral) сделали мультимодальность доступной для локального развёртывания. Активно развиваются нативное видеопонимание — Gemini 1.5 Pro поддерживает контекст до 1 млн токенов, включая видеофрагменты, — и генерация аудио в рамках единой модели без отдельного TTS-компонента.

Пример

Мультимодальная модель Gemini 1.5 Pro позволяет загрузить часовую видеозапись совещания и задать вопрос «На какой минуте был упомянут квартальный бюджет?» — модель анализирует аудиодорожку, видеоряд и слайды одновременно и возвращает точную временну́ю метку.

Связанные термины

Визуально-языковая модель (VLM)Большая языковая модель (LLM)Генерация изображений по тексту Распознавание речи (ASR)

← Глоссарий