StepFun представила Step 3.7 Flash на GPU NVIDIA для мультимодальной работы

Q: Источник материала?

Оригинальная публикация на NVIDIA Developer Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-29. Время чтения: 3 мин.

StepFun запустила Step 3.7 Flash на NVIDIA GPU — мультимодальную модель с 198 млрд параметров. Обрабатывает текст, изображения, видео и документы в реальном вре

ЖХ

Редакция Hamidun News

AI‑мониторинг · NVIDIA Developer Blog

2026-05-29· 2 мин

StepFun представила Step 3.7 Flash на GPU NVIDIA для мультимодальной работы — Источник: NVIDIA Developer Blog. Коллаж: Hamidun News.

◐ Слушать статью

StepFun представила Step 3.7 Flash — мультимодальную AI-модель, способную одновременно анализировать тексты, изображения, видео и документы. Модель уже доступна на NVIDIA-ускорителях и предназначена для корпоративного применения в масштабе.

Что такое

Step 3.7 Flash Step 3.7 Flash — это языковая модель размером 198 миллиардов параметров с поддержкой мультимодальности. В отличие от текстовых моделей, она воспринимает несколько типов входных данных одновременно: текстовые запросы, изображения высокого разрешения, видеопоследовательности и сканы документов. Это позволяет приложениям работать с реальными бизнес-сценариями, где информация приходит не в одном формате. Модель обучена обрабатывать эти данные в реальном времени, не требуя предварительной подготовки или конвертации входов. Интеграция с NVIDIA-инфраструктурой означает, что компании могут использовать существующие GPU-кластеры без переноса на новые системы.

Мультимодальные возможности

Step 3.7 Flash охватывает ключевые корпоративные сценарии: Поиск по визуальному контенту — находит нужную информацию в архивах фотографий и видео Анализ документов — извлекает данные из таблиц, контрактов, отчётов, квитанций Видеоанализ — понимает сюжет, извлекает детали из записей камер или видеоконференций Гибридные запросы — отвечает на вопросы, требующие сопоставления информации из разных источников Такой подход полезен для юридических фирм (анализ контрактов и переписки), производства (контроль качества по видео), медицины (анализ снимков и отчётов), финансов (обработка множественных документов).

Масштабирование и производительность

StepFun подчёркивает, что Step 3.7 Flash — не исследовательский проект, а готовое к продакшену решение. Модель оптимизирована для NVIDIA GPU, включая новые архитектуры. Это означает предсказуемую задержку, поддержку batch-обработки для высоконагруженных систем и гарантированную совместимость с корпоративной инфраструктурой. Доступность на NVIDIA-ускорителях критична для компаний, которые уже инвестировали в GPU-кластеры. Они могут добавить мультимодальность к существующим приложениям без переучивания инженеров или переписывания пайплайнов.

Что это значит

Переход AI с текстового анализа на полноценную мультимодальность — это не просто добавление фич, это смена парадигмы. Когда модель видит экран как человек (текст + изображение + видео одновременно), новые приложения становятся возможными: интеллектуальная RPA, анализ больших объёмов неструктурированных данных, автоматизация работы с документами на уровне, который раньше требовал людей. Step 3.7 Flash показывает, что этот уровень теперь доступен в production-ready виде на стандартном железе.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com