Модель пространства состояний (SSM)
Модель пространства состояний (SSM) — математический класс архитектур, описывающих эволюцию последовательности через скрытый вектор состояния; в контексте машинного обучения позволяет обрабатывать длинные последовательности с линейной вычислительной сложностью вместо квадратичной у трансформеров.
Модель пространства состояний (SSM) — класс архитектур нейронных сетей, основанных на классических уравнениях теории управления: скрытое состояние h_t обновляется как функция предыдущего состояния и текущего входа, а выход y_t вычисляется из h_t. В дискретизированном виде это выражается через обучаемые матрицы A, B, C: h_t = Āh_{t−1} + B̄x_t, y_t = Ch_t.
В отличие от трансформеров с механизмом внимания, требующих O(n²) вычислений по длине последовательности, SSM обрабатывают входные данные рекуррентно или свёрточно с O(n) сложностью. Ключевые разработки — Structured State Spaces (S4, 2021), решившие проблему обучения длинных зависимостей, и архитектура Mamba (Gu и Dao, 2023) с механизмом selective state space, где параметры матриц зависят от входных данных, позволяя модели избирательно запоминать или игнорировать информацию.
Линейная сложность делает SSM привлекательными для задач с очень длинными последовательностями: обработка геномных данных, временные ряды, аудио высокого разрешения. Гибридные архитектуры — Jamba (AI21 Labs, 2024), Zamba, Falcon Mamba — совмещают блоки SSM с блоками трансформерного внимания, сочетая сильные стороны обоих подходов.
К 2026 году SSM-архитектуры занимают устойчивую нишу: они конкурентоспособны с трансформерами на задачах длинного контекста и значительно эффективнее при инференсе — константный размер состояния вместо растущего KV-кэша. Mamba-2 (2024) формализовала связь между SSM и вниманием через концепцию structured masked attention. Тем не менее трансформеры с расширенными окнами контекста до 1 млн токенов сохраняют доминирование в большинстве NLP-бенчмарков.