StepFun представила Step 3.7 Flash на GPU NVIDIA для мультимодальной работы
StepFun запустила Step 3.7 Flash на NVIDIA GPU — мультимодальную модель с 198 млрд параметров. Обрабатывает текст, изображения, видео и документы в реальном вре

StepFun представила Step 3.7 Flash — мультимодальную AI-модель, способную одновременно анализировать тексты, изображения, видео и документы. Модель уже доступна на NVIDIA-ускорителях и предназначена для корпоративного применения в масштабе.
Что такое
Step 3.7 Flash Step 3.7 Flash — это языковая модель размером 198 миллиардов параметров с поддержкой мультимодальности. В отличие от текстовых моделей, она воспринимает несколько типов входных данных одновременно: текстовые запросы, изображения высокого разрешения, видеопоследовательности и сканы документов. Это позволяет приложениям работать с реальными бизнес-сценариями, где информация приходит не в одном формате. Модель обучена обрабатывать эти данные в реальном времени, не требуя предварительной подготовки или конвертации входов. Интеграция с NVIDIA-инфраструктурой означает, что компании могут использовать существующие GPU-кластеры без переноса на новые системы.
Мультимодальные возможности
Step 3.7 Flash охватывает ключевые корпоративные сценарии: Поиск по визуальному контенту — находит нужную информацию в архивах фотографий и видео Анализ документов — извлекает данные из таблиц, контрактов, отчётов, квитанций Видеоанализ — понимает сюжет, извлекает детали из записей камер или видеоконференций Гибридные запросы — отвечает на вопросы, требующие сопоставления информации из разных источников Такой подход полезен для юридических фирм (анализ контрактов и переписки), производства (контроль качества по видео), медицины (анализ снимков и отчётов), финансов (обработка множественных документов).
Масштабирование и производительность
StepFun подчёркивает, что Step 3.7 Flash — не исследовательский проект, а готовое к продакшену решение. Модель оптимизирована для NVIDIA GPU, включая новые архитектуры. Это означает предсказуемую задержку, поддержку batch-обработки для высоконагруженных систем и гарантированную совместимость с корпоративной инфраструктурой. Доступность на NVIDIA-ускорителях критична для компаний, которые уже инвестировали в GPU-кластеры. Они могут добавить мультимодальность к существующим приложениям без переучивания инженеров или переписывания пайплайнов.
Что это значит
Переход AI с текстового анализа на полноценную мультимодальность — это не просто добавление фич, это смена парадигмы. Когда модель видит экран как человек (текст + изображение + видео одновременно), новые приложения становятся возможными: интеллектуальная RPA, анализ больших объёмов неструктурированных данных, автоматизация работы с документами на уровне, который раньше требовал людей. Step 3.7 Flash показывает, что этот уровень теперь доступен в production-ready виде на стандартном железе.