Modelos

Recurrent Neural Network (RNN)

Uma Recurrent Neural Network (RNN) é uma rede neural que processa dados sequenciais mantendo um vetor de estado oculto atualizado em cada passo de tempo, permitindo que informações de entradas anteriores influenciem predições posteriores.

Em uma RNN, o estado oculto h_t é computado como h_t = f(W_h · h_{t-1} + W_x · x_t + b), onde f é uma ativação não-linear, W_h e W_x são matrizes de pesos aprendidas, e x_t é a entrada atual. Como a saída de cada passo depende do estado oculto anterior, a rede teoricamente tem acesso ao histórico completo de uma sequência, tornando-a um encaixe natural para modelagem de linguagem, reconhecimento de fala e previsão de séries temporais.

RNNs vanilla sofrem com gradientes desaparecendo e explodindo durante backpropagation through time: gradientes tendem a encolher ou explodir exponencialmente conforme se propagam através de muitos passos, dificultando o aprendizado de dependências de longo alcance. As arquiteturas Long Short-Term Memory (LSTM, Hochreiter & Schmidhuber, 1997) e Gated Recurrent Unit (GRU, Cho et al., 2014) lidam com isso usando mecanismos de gating aprendidos — gates de esquecimento, entrada e saída — que controlam quais informações são retidas ou descartadas, permitindo que contexto relevante persista através de centenas de passos.

RNNs foram a arquitetura dominante para modelagem de sequências ao longo dos anos 2010, sustentando sistemas-chave como Google Translate (baseado em LSTM até 2017), pipelines de reconhecimento de fala e reconhecimento de escrita à mão. Sua natureza recorrente significa que a inferência é inerentemente sequencial e não pode ser totalmente paralelizada através do tempo, o que limita o throughput de treinamento comparado aos transformers.

A partir de 2026, RNNs e LSTMs foram largamente substituídas por transformers e state space models para a maioria das tarefas de NLP e fala. Retêm um papel em aplicações com restrição de recursos ou sensíveis a latência — dispositivos embarcados, processamento de áudio em tempo real e sistemas de controle — onde sua pegada de memória constante por passo de inferência é uma vantagem sobre modelos baseados em atenção cuja memória cresce com o comprimento do contexto.

Exemplo

Um dispositivo médico vestível usa um modelo baseado em GRU para classificar continuamente sinais de ECG em tempo real, atualizando sua predição de arritmia a cada amostra de batida cardíaca sem armazenar o histórico completo de sinais na memória.

Termos relacionados

Rede Neural State Space Model (SSM)Transformer

← Glossário