304 LLMs chineses: por que entre centenas de redes neurais não encontraram um rei

Q: Qual é a fonte?

Publicado originalmente em Jiqizhixin (机器之心). O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

3 de fev. de 2026. Tempo de leitura: 2 min.

Lembra daqueles tempos quando cada novo anúncio da China vinha acompanhado de gritos sobre a "morte do GPT-4"? Pois bem, a poeira baixou um pouco, e os…

Redação da Hamidun News

Monitoramento de AI · Jiqizhixin (机器之心)

3 de fev. de 2026· 2 min

Processado por IA de Jiqizhixin (机器之心); editado por Hamidun News

304 LLMs chineses: por que entre centenas de redes neurais não encontraram um rei — Fonte: Jiqizhixin (机器之心). Colagem: Hamidun News.

◐ Ouvir artigo

Lembra daqueles tempos quando cada novo anúncio da China vinha acompanhado de gritos sobre a "morte do GPT-4"? Pois bem, a poeira baixou um pouco, e os pesquisadores decidiram fazer um inventário em larga escala do que a famosa "batalha de mil modelos" realmente gerou. Os resultados foram desalentadores. Depois de testar 304 grandes modelos de linguagem chineses, descobriu-se que não há um líder universal no mercado. Um modelo é excelente em escrever código, o segundo se faz de poeta de forma magistral, e o terceiro se sai razoavelmente bem em lógica, mas ninguém ainda conseguiu combinar tudo isso em um único "frasco". Estamos observando uma situação em que a quantidade se transformou em qualquer coisa, menos em qualidade.

O principal problema agora nem é que os modelos não sejam inteligentes o suficiente. A indústria encontrou o que é chamado de "gargalo de avaliação". Quando você tem trezentas redes neurais em seu país, verificar cada uma quanto à adequação se torna uma tarefa de proporções épicas.

Os benchmarks tradicionais há muito foram comprometidos: os desenvolvedores simplesmente "trapaceiam" procurando respostas em testes e treinam seus modelos com elas. Para obter um resultado honesto, você precisa de pessoas reais ou verificações em cascata complexas, e isso custa somas astronômicas. Em algum momento, o processo de auditoria de IA passou a custar às empresas quase tanto quanto a locação de placas gráficas para treinamento.

Diante disso, a solução da equipe ReLE parece ser uma tentativa de salvar os orçamentos dos capitalistas de risco. Eles propuseram a arquitetura Reinforcement Learning from Evaluation. Sem entrar nos detalhes das fórmulas, esta é uma maneira de otimizar o próprio processo de teste.

Em vez de executar um modelo através de milhares de perguntas semelhantes, o sistema aprende a selecionar apenas as tarefas mais informativas e difíceis. É como se em um exame um professor o fizesse responder imediatamente três das questões mais complicadas, em vez de o torturar por três horas em todo o currículo. O resultado é o mesmo, mas você gasta 70% menos tempo e recursos.

Por que isso é importante para nós? O mercado de IA chinês sempre foi um reflexo hipertrofiado de tendências globais. Se começaram a reclamar massivamente sobre os custos de avaliação, significa que em breve este problema atingirá startups ocidentais também.

Estamos entrando em uma era onde a "eficiência" se torna mais importante que a "potência". Os investidores não querem mais ouvir falar sobre quantos trilhões de parâmetros você meteu em seu modelo. Eles querem saber como você planeja provar sua viabilidade sem gastar toda a sua próxima rodada de financiamento nisso.

Também é interessante ver como a paisagem de desenvolvimento está mudando. Enquanto gigantes como Baidu ou Alibaba tentam construir esses sistemas universais, pequenas equipes encontram salvação em especialização estreita. A pesquisa mostrou que modelos especializados frequentemente superam os "generalistas" em seus nichos enquanto exigem dezenas de vezes menos recursos.

Isso questiona o próprio conceito de criar uma rede neural que tanto cozinhe borscht quanto lance foguetes no espaço. Talvez o futuro não esteja com um rei, mas com um conselho harmonioso de ministros. O ponto principal: a era da escalagem irrefletida está chegando ao fim.

Agora o vencedor será não quem treinar o maior modelo, mas quem aprender mais rápida e baratamente a separar o joio do trigo. O ReLE se tornará um novo padrão da indústria ou é apenas um remendo temporário em um mercado inchado?

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis