Модели

Модель пространства состояний (SSM)

Модель пространства состояний (SSM) — математический класс архитектур, описывающих эволюцию последовательности через скрытый вектор состояния; в контексте машинного обучения позволяет обрабатывать длинные последовательности с линейной вычислительной сложностью вместо квадратичной у трансформеров.

Модель пространства состояний (SSM) — класс архитектур нейронных сетей, основанных на классических уравнениях теории управления: скрытое состояние h_t обновляется как функция предыдущего состояния и текущего входа, а выход y_t вычисляется из h_t. В дискретизированном виде это выражается через обучаемые матрицы A, B, C: h_t = Āh_{t−1} + B̄x_t, y_t = Ch_t.

В отличие от трансформеров с механизмом внимания, требующих O(n²) вычислений по длине последовательности, SSM обрабатывают входные данные рекуррентно или свёрточно с O(n) сложностью. Ключевые разработки — Structured State Spaces (S4, 2021), решившие проблему обучения длинных зависимостей, и архитектура Mamba (Gu и Dao, 2023) с механизмом selective state space, где параметры матриц зависят от входных данных, позволяя модели избирательно запоминать или игнорировать информацию.

Линейная сложность делает SSM привлекательными для задач с очень длинными последовательностями: обработка геномных данных, временные ряды, аудио высокого разрешения. Гибридные архитектуры — Jamba (AI21 Labs, 2024), Zamba, Falcon Mamba — совмещают блоки SSM с блоками трансформерного внимания, сочетая сильные стороны обоих подходов.

К 2026 году SSM-архитектуры занимают устойчивую нишу: они конкурентоспособны с трансформерами на задачах длинного контекста и значительно эффективнее при инференсе — константный размер состояния вместо растущего KV-кэша. Mamba-2 (2024) формализовала связь между SSM и вниманием через концепцию structured masked attention. Тем не менее трансформеры с расширенными окнами контекста до 1 млн токенов сохраняют доминирование в большинстве NLP-бенчмарков.

Пример

Обработка полного генома длиной в миллиарды нуклеотидов для поиска паттернов экспрессии генов — задача, где SSM-модели на базе Mamba справляются без экспоненциального роста потребления памяти, который делал бы стандартное трансформерное внимание практически неприменимым.

Связанные термины

← Глоссарий