Модели

Рекуррентная нейросеть (RNN)

Рекуррентная нейросеть (RNN) — архитектура нейронной сети, обрабатывающая последовательности за счёт передачи скрытого состояния от шага к шагу; позволяет учитывать контекст предыдущих элементов при обработке текущего.

Рекуррентная нейросеть (RNN) — тип нейросети, в которой на каждом временном шаге t скрытое состояние h_t вычисляется из текущего входа x_t и предыдущего состояния h_{t−1}: h_t = f(Wx_t + Uh_{t−1} + b). Это принципиально отличает RNN от полносвязных и свёрточных сетей: она обладает «памятью» о предшествующих шагах последовательности и может обрабатывать входы произвольной длины.

Базовые RNN страдают от исчезающего и взрывающегося градиента при обучении через длинные последовательности методом BPTT (backpropagation through time). Для решения этой проблемы разработаны архитектуры с вентилями: LSTM (Long Short-Term Memory, Hochreiter и Schmidhuber, 1997) с явными ячейками памяти и воротами забывания, и GRU (Gated Recurrent Unit, Cho et al., 2014) — упрощённая версия с двумя вентилями. Двунаправленные RNN (BiRNN) обрабатывают последовательность в обоих направлениях, подключая будущий контекст.

До эпохи трансформеров (2017) RNN и LSTM были стандартом для машинного перевода, распознавания речи, генерации текста и анализа временных рядов. Многие коммерческие системы середины 2010-х — Google Translate (версия 2016 года на базе GNMT), голосовые помощники Siri и Alexa — строились на seq2seq-моделях с LSTM. Ключевое ограничение RNN — невозможность параллельного обучения: каждый шаг зависит от предыдущего, что делает тренировку медленной на GPU.

К 2026 году рекуррентные нейросети в классическом виде вытеснены трансформерами в большинстве задач NLP. Однако LSTM и GRU сохраняются во встроенных системах с ограниченной памятью и в ряде задач обработки сигналов реального времени. Концептуальное наследие RNN продолжается в архитектурах SSM (Mamba) и линейных вариантах внимания, которые можно интерпретировать как обобщённые рекуррентные схемы с улучшенным режимом обучения.

Пример

Система распознавания именованных сущностей в медицинских текстах на основе двунаправленного LSTM последовательно читает каждое слово истории болезни, накапливая контекст с обоих концов предложения, что позволяет точно выделять названия препаратов, дозировки и диагнозы.

Связанные термины

Нейронная сеть Модель пространства состояний (SSM)Трансформер

← Глоссарий