Por que o cérebro é centenas de milhões de vezes mais eficiente que GPT-4 e para onde vão os chips neuromórficos
O cérebro humano gasta milhões de vezes menos energia em atos cognitivos que os LLMs modernos, e não é apenas questão de hardware. A diferença chave está na…
Processado por IA de Habr AI; editado por Hamidun News
A comparação entre o cérebro humano e os LLMs modernos revela um fato desconfortável para a indústria de IA: até os modelos mais poderosos permanecem extremamente famintos por energia. O cérebro opera em aproximadamente 20 watts, enquanto os grandes modelos de linguagem durante a inferência podem exigir quilowatts e durante o treinamento — megawatts de potência. Se olharmos não para benchmarks de marketing, mas para o custo de um único pensamento, a diferença é colossal: a biologia ainda faz o mesmo trabalho por ordens de magnitude mais barato que o silício.
O artigo começa a comparação com números de linha de base. Estima-se que o cérebro realize cerca de 10^16 operações sinápticas por segundo consumindo aproximadamente 20 watts. Para LLMs modernos, uma escala computacional comparável é alcançada através de GPUs e TPUs, mas o custo de cada operação é muito maior.
Em termos de energia por ação, estamos falando em attojoules para o cérebro versus picojoules e superior para aceleradores digitais. O autor fornece um exemplo mais vívido: para responder a uma pergunta simples como a diferença entre metano e etano, o cérebro ativa apenas uma pequena fração de neurônios e gasta aproximadamente décimos de um joule, enquanto GPT-4 deve carregar um enorme conjunto de parâmetros e realizar um enorme volume de operações matriciais. Nesse enquadramento, a lacuna pode chegar a centenas de milhões de vezes.
A razão não é que os engenheiros simplesmente tenham hardware ruim, mas nos próprios princípios computacionais. O cérebro funciona analogicamente: neurônios e sinapses operam em gradientes contínuos, potenciais de membrana e correntes iônicas. Um único elemento biológico simultaneamente armazena estado e participa da computação.
Os LLMs são diferentes: dados são representados como bits, a computação é separada da memória, e cada operação matricial se decompõe em uma longa cadeia de comutadores digitais. A segunda vantagem do cérebro é a recorrência e dinâmica temporal. O mesmo neurônio é engajado várias vezes no processamento de sinais, e o tempo se torna parte da computação.
Um Transformer, em contraste, passa cada token através de um conjunto fixo de camadas e paga por isso com um número gigantesco de operações paralelas. A terceira diferença é a esparsidade. No cérebro, apenas uma pequena fração de neurônios está ativa simultaneamente, portanto o sistema não desperdiça energia na ativação total da rede.
Em LLMs, a cada passo, enormes conjuntos de pesos são engajados, mesmo que a tarefa seja relativamente simples. O quarto fator é o aprendizado local. O sistema biológico muda sinapses específicas onde surgiu nova experiência, em vez de executar retropropagação global através de uma rede gigantesca.
O quinto é a física do próprio substrato: canais de íons e processos bioquímicos operam perto do mínimo termodinâmico, enquanto até transistores avançados comutam com muito maiores perdas. Finalmente, o cérebro obtém parte de sua estrutura gratuitamente: o córtex visual, hipocampo, cerebelo e outros módulos especializados vieram a ele como resultado da evolução, enquanto LLMs devem aprender a estrutura do mundo novamente através de conjuntos de dados massivos e treinamento muito caro. Isso não significa que modelos grandes não tenham futuro.
Antes, a conclusão é que a arquitetura Transformer atual atingiu o custo energético de sua própria conveniência. A indústria já está buscando soluções alternativas: quantização para 4–8 bits, Transformers esparsos, mistura de especialistas, redes líquidas e pulsatórias. Algumas abordagens já produzem melhorias de 5–10x, mas isso é insuficiente para se aproximar do nível biológico.
Portanto, cada vez mais atenção está se deslocando para hardware neuromorfo. Tais sistemas já existem: SpiNNaker2 é implantado como um supercomputador especializado e pode até ser alugado via nuvem, BrainChip Akida é orientado para edge AI, SynSense Xylo e Innatera Pulsar visam cenários de microwatt e sensores. No entanto, até as melhores dessas soluções atualmente ficam atrás do cérebro por aproximadamente três ordens de magnitude em eficiência energética e exigem uma pilha de software completamente diferente.
O horizonte prático também parece sóbrio. Em 2026–2028, chips neuromorphos provavelmente crescerão em robótica, controladores industriais, sensores e sistemas autônomos, onde latência e consumo de energia são críticos. Eletrônicos de consumidor como smartphones e smartwatches podem obter tais coprocessadores, se é que os obtêm, mais próximo a 2030 e além.
O principal gargalo aqui não é apenas a fabricação de chips, mas também o software: ferramentas familiares como PyTorch e TensorFlow não funcionam com redes pulsatórias sem adaptação séria, e ainda não existe um padrão de treinamento universal para tais sistemas. A conclusão principal é simples: o cérebro hoje não é apenas mais inteligente em tarefas individuais, mas radicalmente mais econômico como máquina computacional. Portanto, o próximo grande salto em IA provavelmente virá não de um LLM ainda maior em um cluster GPU ainda maior, mas de uma mudança no paradigma computacional fundamental.
Por enquanto, GPT-4 e seus sucessores permanecem um modo muito poderoso, mas energeticamente custoso de obter comportamento semelhante a inteligência.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.