Stanford apresenta chip Onyx para IA esparsa: 8 vezes mais rápido que CPU e 70 vezes mais eficiente
Stanford apresentou o Onyx, um acelerador programável para computações de IA esparsa. O chip não desperdiça recursos em operações com zero, alcançando…
Processado por IA de IEEE Spectrum AI; editado por Hamidun News
Pesquisadores de Stanford apresentaram o acelerador Onyx, que consegue extrair benefícios dos "zeros" dentro de modelos de IA. A ideia é não desperdiçar energia em multiplicações e adições que não mudam nada de antemão, e assim acelerar as computações sem abandonar modelos grandes.
Por que zeros importam
Em redes neurais, dados, pesos e ativações são armazenados como arrays de números — vetores, matrizes e tensores. Em muitos casos, uma parte significativa desses números é zero ou tão próxima de zero que pode ser considerada zero sem perda notável de qualidade. Essa propriedade é chamada esparsidade.
Se mais da metade são zeros, o modelo já pode se beneficiar de algoritmos especializados: em vez de armazenar e processar a matriz inteira, o sistema salva apenas valores úteis e pula operações vazias. Para a indústria isso é importante porque modelos crescem mais rápido do que a infraestrutura consegue ficar mais barata. Quanto mais parâmetros, maior a qualidade, mas também mais caro é executar em termos de tempo, energia e pegada de carbono.
O artigo oferece um exemplo de Meta Llama com 2 trilhões de parâmetros. Pesquisadores também lembram resultados de Cerebras: em Llama 7B conseguiram zerar 70–80 por cento dos parâmetros sem perda de precisão. Isso significa que dentro de modelos grandes já existe uma reserva oculta para aceleração — é só necessário aprender a usá-la.
Onde a eficiência se perde
O problema é que o hardware popular foi construído desde o início para computações densas, não estruturas esparsas. Quando dados são comprimidos, junto com valores não-zero, é necessário armazenar metadados — índices de linhas, índices de colunas e segmentos. O acesso a tais dados se torna indireto e imprevisível: o processador primeiro tem que encontrar coordenadas, e então o valor real. Como resultado, parte do tempo é gasta não em matemática, mas em navegar pela memória e operações de serviço.
- GPUs se saem bem com matrizes densas, mas com esparsidade aleatória frequentemente paralelizam operações inúteis com zeros.
- Esparsidade estruturada nem sempre ajuda, porque requer um padrão rígido de nulificação, por exemplo dois zeros a cada quatro parâmetros adjacentes.
- CPUs são mais flexíveis, mas frequentemente encontram falhas de prefetcher e acessos à memória imprevisíveis.
- Mesmo bibliotecas sparse não reduzem toda a sobrecarga, porque alguns recursos vão para manutenção dos próprios dados.
Fabricantes já estão procurando soluções alternativas, mas por enquanto são apenas pontuais. Apple acelerou acessos indiretos à memória em chips A14 e M1, Cerebras está promovendo a abordagem sparse em seu Wafer Scale Engine, e Meta está desenvolvendo MTIA. Mas também há limitações: algumas soluções funcionam apenas com esparsidade de pesos, outras revelam suporte apenas para operações individuais como multiplicação de matrizes. Para cargas reais de IA isso é insuficiente, porque modelos não consistem em uma operação, mas em uma longa cadeia de diferentes camadas e transformações.
Como Onyx é construído
O time de Stanford começou do zero e criou Onyx — um acelerador programável que consegue trabalhar igualmente bem com computações esparsas e densas. Em seu núcleo está a arquitetura CGRA, uma opção intermediária entre CPU e FPGA: é notavelmente mais flexível que um processador clássico, mas ao mesmo tempo mais eficiente que circuitos totalmente configuráveis em bits. Onyx consiste em blocos computacionais e blocos de memória, que armazenam matrizes comprimidas e as processam imediatamente nessa forma, sem expandir de volta para formato denso a menos que necessário.
O compilador é particularmente importante: ele traduz expressões como multiplicar uma matriz esparsa por um vetor em um gráfico de memória e computações, então o distribui pelos blocos do chip. Conforme dados de Stanford, em média Onyx consumiu 70 vezes menos energia que CPU e executou computações aproximadamente 8 vezes mais rápido. Pela métrica energy-delay product, o ganho chegou a 565 vezes em relação a um Intel Xeon de 12 núcleos com bibliotecas sparse.
A próxima geração de Onyx deve adicionar suporte para camadas não-lineares, normalização, softmax e troca mais conveniente entre modos sparse e densos.
O que isso significa
A ideia principal do artigo não é que outro chip de IA apareceu, mas que desenvolvedores estão começando a otimizar modelos não apenas reduzindo precisão ou tamanho, mas também pela estrutura das próprias computações. Se a abordagem esparsa se consolidar, modelos grandes poderão ser executados mais barato e rápido, o que significa que o próximo salto em IA pode vir não apenas de novos modelos, mas também de uma nova classe de hardware.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.