Modelos

Red Neuronal Recurrente (RNN)

Una Red Neuronal Recurrente (RNN) es una red neuronal que procesa datos secuenciales manteniendo un vector de estado oculto actualizado en cada paso de tiempo, permitiendo que la información de entradas anteriores influya en predicciones posteriores.

En una RNN, el estado oculto h_t se calcula como h_t = f(W_h · h_{t-1} + W_x · x_t + b), donde f es una activación no lineal, W_h y W_x son matrices de pesos aprendidas, y x_t es la entrada actual. Porque la salida de cada paso depende del estado oculto anterior, la red teóricamente tiene acceso al historial completo de una secuencia, haciendo que sea un ajuste natural para modelado de lenguaje, reconocimiento de voz, y pronóstico de series de tiempo.

Las RNN vanilla sufren de gradientes desvanecientes y explosivos durante la backpropagation a través del tiempo: los gradientes tienden a encogerse o explotar exponencialmente mientras se propagan a través de muchos pasos, dificultando el aprendizaje de dependencias a largo plazo. Las arquitecturas Long Short-Term Memory (LSTM, Hochreiter & Schmidhuber, 1997) y Gated Recurrent Unit (GRU, Cho et al., 2014) abordan esto con mecanismos de gating aprendidos —puertas de olvido, entrada y salida— que controlan qué información se retiene o se descarta, permitiendo que el contexto relevante persista a través de cientos de pasos.

Las RNN fueron la arquitectura dominante para modelado de secuencias durante los años 2010, sustentando sistemas clave como Google Translate (basado en LSTM hasta 2017), pipelines de reconocimiento de voz, y reconocimiento de escritura a mano. Su naturaleza recurrente significa que la inferencia es inherentemente secuencial y no puede ser totalmente paralelizada a través del tiempo, lo que limita el rendimiento de entrenamiento comparado con transformers.

Para 2026, las RNN y LSTM han sido largamente desplazadas por transformers y modelos de espacio de estados para la mayoría de tareas de NLP y voz. Retienen un rol en aplicaciones con recursos limitados o sensibles a la latencia —dispositivos embebidos, procesamiento de audio en tiempo real, y sistemas de control— donde su huella de memoria constante por paso de inferencia es una ventaja sobre modelos basados en attention cuya memoria crece con la longitud del contexto.

Ejemplo

Un dispositivo médico wearable utiliza un modelo basado en GRU para clasificar continuamente señales de ECG en tiempo real, actualizando su predicción de arritmia con cada muestra de latido sin almacenar el historial completo de la señal en memoria.

Términos relacionados

Red neuronal Modelo de Espacio de Estados (SSM)Transformer

← Glosario