Jiqizhixin (机器之心)→ original

DeepMind e mineração de funções de ativação: por que ReLU deveria se aposentar

Por décadas, vivemos em um mundo onde a função de ativação ReLU era um padrão inabalável. Era simples como um tijolo e eficaz o suficiente para não…

Processado por IA de Jiqizhixin (机器之心); editado por Hamidun News
DeepMind e mineração de funções de ativação: por que ReLU deveria se aposentar
Fonte: Jiqizhixin (机器之心). Colagem: Hamidun News.
◐ Ouvir artigo

Por décadas, vivemos em um mundo onde a função de ativação ReLU era um padrão inabalável. Era simples como um tijolo e eficaz o suficiente para não atrapalhar as redes neurais em seu aprendizado. Mas sejamos honestos: ReLU (Rectified Linear Unit) se tornou popular não porque era ideal, mas porque em 2012 não tínhamos recursos para tentar algo mais complexo.

Agora DeepMind decidiu que chegou a hora de parar de adivinhar e transformou a busca por fórmulas matemáticas em um verdadeiro garimpo industrial. O time de pesquisadores construiu o que chamam de "garimpo computacional." A ideia é simples e simultaneamente insana: se não sabemos qual função matemática é melhor para aprendizado profundo, vamos simplesmente testá-las todas.

Este é o método clássico de força bruta, levado ao seu limite absoluto. Em vez de fazer matemáticos passarem anos derivando provas elegantes, DeepMind colocou milhares de processadores gráficos para "escavar" o algoritmo perfeito. Por que isso está acontecendo agora?

O mercado de LLM atingiu um teto de eficiência. Continuamos aumentando o número de parâmetros, mas os blocos básicos dos modelos quase não mudam. DeepMind percebeu que até mesmo um pequeno ganho de eficiência no nível da função de ativação, em escala de GPT-4 ou Gemini, economiza milhões de dólares em eletricidade e semanas de tempo de treinamento.

Isso não é apenas interesse acadêmico—é pura economia. No processo do seu "garimpo," o sistema testou milhões de combinações de operadores matemáticos. Os pesquisadores procuravam funções que não apenas mostrassem alta precisão no papel, mas que também "funcionassem bem" com hardware moderno.

Descobriu-se que muitas funções teoricamente fortes são muito complexas para computação em GPU, tornando-as inúteis em produção real. DeepMind buscava o meio-termo—simplicidade computacional e flexibilidade matemática. Os resultados são impressionantes.

As funções descobertas superam não apenas a antiga e confiável ReLU, mas também alternativas mais modernas como Swish ou GeLU. O mais interessante aqui é a mudança de paradigma. Estamos passando da era de "pessoas inteligentes inventando algoritmos" para a era de "sistemas inteligentes cultivando algoritmos."

Este é o verdadeiro AutoML, sobre o que sonhávamos há cinco anos, mas agora chegou ao próprio fundamento das conexões neurais. O que isso significa para a indústria? Muito provavelmente, na próxima geração de grandes modelos de linguagem veremos arquiteturas que nos parecerão estranhas.

Elas usarão funções que nenhuma pessoa no juízo perfeito jamais derivaria em um quadro, porque não parecem "bonitas" da perspectiva da análise matemática clássica. Mas elas funcionarão. E funcionarão mais rápido do que qualquer coisa que já vimos.

O essencial: DeepMind demonstrou claramente que a "corrida do ouro" em IA está se deslocando do reino de conjuntos de dados gigantes para o reino de reinventar a matemática básica. Se você pensava que os fundamentos do aprendizado profundo já estavam cimentados, prepare-se—eles estão sendo demolidos com um martelete.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…