IEEE Spectrum AI→ original

Stanford apresenta chip Onyx para IA esparsa: 8 vezes mais rápido que CPU e 70 vezes mais eficiente

Stanford apresentou o Onyx, um acelerador programável para computações de IA esparsa. O chip não desperdiça recursos em operações com zero, alcançando…

Processado por IA de IEEE Spectrum AI; editado por Hamidun News
Stanford apresenta chip Onyx para IA esparsa: 8 vezes mais rápido que CPU e 70 vezes mais eficiente
Fonte: IEEE Spectrum AI. Colagem: Hamidun News.
◐ Ouvir artigo

Pesquisadores de Stanford apresentaram o acelerador Onyx, que consegue extrair benefícios dos "zeros" dentro de modelos de IA. A ideia é não desperdiçar energia em multiplicações e adições que não mudam nada de antemão, e assim acelerar as computações sem abandonar modelos grandes.

Por que zeros importam

Em redes neurais, dados, pesos e ativações são armazenados como arrays de números — vetores, matrizes e tensores. Em muitos casos, uma parte significativa desses números é zero ou tão próxima de zero que pode ser considerada zero sem perda notável de qualidade. Essa propriedade é chamada esparsidade.

Se mais da metade são zeros, o modelo já pode se beneficiar de algoritmos especializados: em vez de armazenar e processar a matriz inteira, o sistema salva apenas valores úteis e pula operações vazias. Para a indústria isso é importante porque modelos crescem mais rápido do que a infraestrutura consegue ficar mais barata. Quanto mais parâmetros, maior a qualidade, mas também mais caro é executar em termos de tempo, energia e pegada de carbono.

O artigo oferece um exemplo de Meta Llama com 2 trilhões de parâmetros. Pesquisadores também lembram resultados de Cerebras: em Llama 7B conseguiram zerar 70–80 por cento dos parâmetros sem perda de precisão. Isso significa que dentro de modelos grandes já existe uma reserva oculta para aceleração — é só necessário aprender a usá-la.

Onde a eficiência se perde

O problema é que o hardware popular foi construído desde o início para computações densas, não estruturas esparsas. Quando dados são comprimidos, junto com valores não-zero, é necessário armazenar metadados — índices de linhas, índices de colunas e segmentos. O acesso a tais dados se torna indireto e imprevisível: o processador primeiro tem que encontrar coordenadas, e então o valor real. Como resultado, parte do tempo é gasta não em matemática, mas em navegar pela memória e operações de serviço.

  • GPUs se saem bem com matrizes densas, mas com esparsidade aleatória frequentemente paralelizam operações inúteis com zeros.
  • Esparsidade estruturada nem sempre ajuda, porque requer um padrão rígido de nulificação, por exemplo dois zeros a cada quatro parâmetros adjacentes.
  • CPUs são mais flexíveis, mas frequentemente encontram falhas de prefetcher e acessos à memória imprevisíveis.
  • Mesmo bibliotecas sparse não reduzem toda a sobrecarga, porque alguns recursos vão para manutenção dos próprios dados.

Fabricantes já estão procurando soluções alternativas, mas por enquanto são apenas pontuais. Apple acelerou acessos indiretos à memória em chips A14 e M1, Cerebras está promovendo a abordagem sparse em seu Wafer Scale Engine, e Meta está desenvolvendo MTIA. Mas também há limitações: algumas soluções funcionam apenas com esparsidade de pesos, outras revelam suporte apenas para operações individuais como multiplicação de matrizes. Para cargas reais de IA isso é insuficiente, porque modelos não consistem em uma operação, mas em uma longa cadeia de diferentes camadas e transformações.

Como Onyx é construído

O time de Stanford começou do zero e criou Onyx — um acelerador programável que consegue trabalhar igualmente bem com computações esparsas e densas. Em seu núcleo está a arquitetura CGRA, uma opção intermediária entre CPU e FPGA: é notavelmente mais flexível que um processador clássico, mas ao mesmo tempo mais eficiente que circuitos totalmente configuráveis em bits. Onyx consiste em blocos computacionais e blocos de memória, que armazenam matrizes comprimidas e as processam imediatamente nessa forma, sem expandir de volta para formato denso a menos que necessário.

O compilador é particularmente importante: ele traduz expressões como multiplicar uma matriz esparsa por um vetor em um gráfico de memória e computações, então o distribui pelos blocos do chip. Conforme dados de Stanford, em média Onyx consumiu 70 vezes menos energia que CPU e executou computações aproximadamente 8 vezes mais rápido. Pela métrica energy-delay product, o ganho chegou a 565 vezes em relação a um Intel Xeon de 12 núcleos com bibliotecas sparse.

A próxima geração de Onyx deve adicionar suporte para camadas não-lineares, normalização, softmax e troca mais conveniente entre modos sparse e densos.

O que isso significa

A ideia principal do artigo não é que outro chip de IA apareceu, mas que desenvolvedores estão começando a otimizar modelos não apenas reduzindo precisão ou tamanho, mas também pela estrutura das próprias computações. Se a abordagem esparsa se consolidar, modelos grandes poderão ser executados mais barato e rápido, o que significa que o próximo salto em IA pode vir não apenas de novos modelos, mas também de uma nova classe de hardware.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…