Recurrent Neural Network (RNN)
Un Recurrent Neural Network (RNN) est un réseau de neurones qui traite les données séquentielles en maintenant un vecteur d'état caché mis à jour à chaque étape temporelle, permettant aux informations des entrées antérieures d'influencer les prédictions ultérieures.
Dans un RNN, l'état caché h_t est calculé comme h_t = f(W_h · h_{t-1} + W_x · x_t + b), où f est une activation non-linéaire, W_h et W_x sont des matrices de poids apprises, et x_t est l'entrée courante. Parce que la sortie de chaque étape dépend de l'état caché précédent, le réseau a théoriquement accès à l'historique complet d'une séquence, ce qui le rend naturellement adapté à la modélisation du langage, la reconnaissance vocale et la prévision de séries chronologiques.
Les RNN vanilles souffrent de gradients qui disparaissent ou explosent lors de la rétropropagation dans le temps : les gradients ont tendance à rétrécir ou à exploser de façon exponentielle en se propageant à travers de nombreuses étapes, ce qui rend difficile l'apprentissage des dépendances à long terme. Les architectures Long Short-Term Memory (LSTM, Hochreiter & Schmidhuber, 1997) et Gated Recurrent Unit (GRU, Cho et al., 2014) abordent ce problème avec des mécanismes de portes apprises — oubli, entrée et sortie — qui contrôlent quelles informations sont conservées ou jetées, permettant au contexte pertinent de persister sur des centaines d'étapes.
Les RNN étaient l'architecture dominante pour la modélisation de séquences tout au long des années 2010, soutenant des systèmes clés tels que Google Traduction (basé sur LSTM jusqu'en 2017), les pipelines de reconnaissance vocale et la reconnaissance d'écriture manuscrite. Leur nature récurrente signifie que l'inférence est intrinsèquement séquentielle et ne peut pas être entièrement parallélisée dans le temps, ce qui limite le débit d'entraînement par rapport aux transformers.
En 2026, les RNN et LSTM ont été largement remplacés par les transformers et les modèles d'espace d'états pour la plupart des tâches de PNL et de reconnaissance vocale. Ils conservent un rôle dans les applications à ressources limitées ou sensibles à la latence — appareils embarqués, traitement audio en temps réel et systèmes de contrôle — où leur empreinte mémoire constante par étape d'inférence est un avantage par rapport aux modèles basés sur l'attention dont la mémoire grandit avec la longueur du contexte.