MarkTechPost→ original

Yuan 3.0 Ultra: um trilhão de parâmetros com eficiência recorde

A YuanLab AI lançou o Yuan 3.0 Ultra, um modelo multimodal aberto baseado na arquitetura Mixture-of-Experts com um trilhão de parâmetros. Ainda assim, apenas…

Processado por IA de MarkTechPost; editado por Hamidun News
Yuan 3.0 Ultra: um trilhão de parâmetros com eficiência recorde
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A corrida pelos modelos de trilhão de parâmetros entra em uma nova fase — e agora a medida de sucesso se torna não o tamanho, mas a capacidade de utilizá-lo com eficiência. O laboratório chinês YuanLab AI apresentou o Yuan 3.0 Ultra, um modelo multimodal aberto baseado em arquitetura Mixture-of-Experts que opera com um trilhão de parâmetros, mas ativa apenas 68,8 bilhões em qualquer momento. Por trás desses números secos está uma mudança fundamental na filosofia de construir grandes modelos de linguagem: em vez de aumentar o poder computacional "pela força", os desenvolvedores apostam em precisão cirúrgica na utilização de recursos.

Para entender a escala dessa afirmação, é necessário contexto. A arquitetura Mixture-of-Experts não é novidade. O Google a usa no Gemini, ela fundamenta o Mixtral da Mistral AI, e por alguns vazamentos — também no GPT-4 da OpenAI.

A essência da abordagem é que o modelo consiste em múltiplas sub-redes "especialistas", e para processar cada consulta específica, apenas uma pequena parte delas é ativada. Isso permite uma enorme capacidade de conhecimento sem a necessidade de passar cada token por todos os parâmetros. O Yuan 3.

0 Ultra leva essa ideia ao seu limite lógico: de um trilhão de parâmetros, simultaneamente menos de sete por cento trabalham. Para comparação, o Mixtral 8x7B tinha uma proporção significativamente menos agressiva de parâmetros ativos para o total.

As métricas de eficiência reivindicadas são particularmente notáveis. De acordo com a YuanLab AI, o número total de parâmetros do modelo foi reduzido em 33,3% comparado a arquiteturas com capacidades equivalentes, e a eficiência do pré-treinamento melhorou em 49%. Isso significa que alcançar qualidade de resposta comparável requer significativamente menos recursos computacionais e tempo de treinamento. Em uma era em que o custo de treinar um único modelo de ponta é medido em dezenas e centenas de milhões de dólares, e o acesso a clusters de GPU permanece um gargalo para a maioria das empresas, tal ganho de eficiência não é apenas uma realização técnica, mas um argumento econômico.

A multimodalidade do Yuan 3.0 Ultra é outro aspecto importante. O modelo é posicionado como capaz de trabalhar não apenas com texto, mas com outros tipos de dados, tornando-o adequado para uma ampla gama de tarefas corporativas — desde análise de documentos com imagens até cenários complexos que exigem compreensão de contexto a partir de múltiplas modalidades. Detalhes das decisões arquitetônicas que permitem a multimodalidade permanecem apenas parcialmente divulgados, mas o próprio fato de integrar essas capacidades em um modelo MoE em escala de trilhão fala sobre a maturidade da abordagem.

A decisão de tornar o modelo aberto merece atenção separada. Os laboratórios chineses de IA nos últimos dezoito meses expandiram consistentemente sua presença na comunidade aberta: DeepSeek, Qwen da Alibaba, Yi da 01.AI — todos lançam modelos com pesos abertos, criando uma poderosa alternativa aos sistemas ocidentais fechados.

O Yuan 3.0 Ultra se encaixa nessa tendência, mas levanta a barra: um modelo MoE de trilhão de parâmetros com acesso aberto é um desafio não apenas para concorrentes comerciais, mas para todo o ecossistema de IA aberta. A questão é se pesquisadores e empresas fora dos maiores provedores de nuvem conseguem realisticamente implantar e usar um modelo dessa escala.

Mesmo levando em conta que os parâmetros ativos são "apenas" 68,8 bilhões, a inferência em um modelo MoE de trilhão de parâmetros requer infraestrutura séria para armazenamento e roteamento entre especialistas.

Para a indústria, o Yuan 3.0 Ultra é uma confirmação adicional de que MoE está se tornando a arquitetura dominante para modelos de próxima geração. Transformadores densos, onde cada parâmetro é ativo em cada chamada, cada vez mais parecem uma abordagem desperdiçadora da era passada. Simultaneamente, o modelo intensifica a competição entre laboratórios chineses e americanos: se as métricas de eficiência reivindicadas forem confirmadas por benchmarks independentes, esse será um argumento sério de que a liderança tecnológica em IA deixou de ser monopólio do Vale do Silício.

Ainda assim, afirmações ousadas merecem ceticismo profissional. Até que os resultados sejam publicados em benchmarks padrão comparados a GPT-4o, Claude 3.5, Gemini Ultra e outros modelos de ponta, falar sobre "eficiência sem paralelos" é prematuro. O verdadeiro teste do Yuan 3.0 Ultra começará quando a comunidade tiver acesso aos pesos e puder conduzir avaliação independente. Apenas então ficará claro se este modelo é um avanço genuíno ou mais um lançamento ambicioso mas superestimado em uma corrida aquecida pela escala.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…