Jiqizhixin (机器之心)→ original

Modelos de linguagem por difusão desafiam GPT com recorde de velocidade de 892 tokens

Um avanço tecnológico na arquitetura de redes neurais: um modelo de linguagem por difusão (DLM) com 100 bilhões de parâmetros atingiu uma impressionante…

Processado por IA de Jiqizhixin (机器之心); editado por Hamidun News
Modelos de linguagem por difusão desafiam GPT com recorde de velocidade de 892 tokens
Fonte: Jiqizhixin (机器之心). Colagem: Hamidun News.
◐ Ouvir artigo

# Modelos de Linguagem por Difusão Desafiam GPT: Recorde de Velocidade de 892 Tokens por Segundo

Modelos de difusão estão reescrevendo as regras: 100 bilhões de parâmetros, 892 tokens por segundo

A indústria de modelos de linguagem recebeu um desafio inesperado. Pesquisadores demonstraram que abordagens de difusão para geração de texto, há muito tempo consideradas lentas e ineficientes, não apenas conseguem competir com arquiteturas clássicas como GPT, mas podem superá-las em velocidade. Um modelo de linguagem por difusão com 100 bilhões de parâmetros alcançou uma velocidade de geração recorde de 892 tokens por segundo — uma métrica que questiona as visões estabelecidas sobre como os modernos grandes modelos de linguagem devem funcionar.

Esta conquista é particularmente significativa porque métodos de difusão permaneceram à margem no contexto de tarefas de texto por muitos anos. Enquanto em visão computacional modelos de difusão ganharam autoridade e revolucionaram a síntese de imagens, o paradigma autorregressivo predominou no processamento de texto — o mesmo em que ChatGPT e seus concorrentes são construídos. Modelos autorregressivos predizem o próximo token com base em todos os anteriores, o que requer passagens sequenciais através da rede neural e desacelera o processo.

Modelos de linguagem por difusão funcionam em princípios fundamentalmente diferentes. Em vez de gerar texto palavra por palavra, eles começam com dados ruidosos e refinam gradualmente a saída através de várias etapas de desruído. O paradoxo: com tal abordagem, aparentemente exigindo mais operações computacionais, o novo modelo de 100 bilhões mostrou uma velocidade de 892 tokens por segundo. Isso é aproximadamente duas vezes mais rápido do que as métricas típicas de modelos autorregressivos modernos de tamanho similar. O avanço técnico está na otimização do algoritmo de desruído e da arquitetura de rede, que permite o processamento paralelo de múltiplas posições no texto, em vez de esperar pela conclusão da predição de um token para passar para o próximo.

O significado deste resultado vai muito além de simplesmente estabelecer um recorde de velocidade. O escalonamento bem-sucedido do modelo de difusão para 100 bilhões de parâmetros prova que esta abordagem não é um beco sem saída em termos de engenharia. Se modelos de difusão conseguem operar com tal desempenho, eles abrem novos caminhos para otimização. Fabricantes podem reduzir latência, melhorar a taxa de transferência dos servidores e diminuir o consumo de energia — fatores críticos na era dos custos de computação em nuvem.

Para a indústria, isso significa que o futuro dos modelos de linguagem não está necessariamente vinculado à arquitetura autorregressiva. OpenAI, Google DeepMind e outros laboratórios investiram enormes recursos na otimização da abordagem autorregressiva, mas o surgimento de uma alternativa competitiva pode forçar a reconsideração de estratégias. Empresas que investiram em pesquisa de métodos de difusão obtêm uma vantagem tangível. Para usuários finais, isso pode significar respostas mais rápidas de assistentes de IA, APIs mais baratas e modelos locais mais eficientes em energia.

No entanto, deve-se ter cautela ao interpretar os resultados. Velocidade de geração de tokens está longe de ser o único critério para a qualidade do modelo. Qualidade do texto, capacidade de lidar com dependências de longo prazo e coerência lógica também são importantes. Resta entender se a abordagem de difusão consegue se equiparar aos modelos autorregressivos em termos de riqueza de conteúdo e precisão de respostas sob recursos computacionais iguais.

Este evento simboliza um momento de transição na indústria de IA, quando o paradigma dominante começa a sentir a concorrência. Se modelos de difusão confirmarem sua viabilidade em outros parâmetros também, podemos testemunhar uma verdadeira diversidade arquitetônica na IA mainstream, cada uma com seus próprios pontos fortes.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…