304 LLMs chineses: por que entre centenas de redes neurais não encontraram um rei
Lembra daqueles tempos quando cada novo anúncio da China vinha acompanhado de gritos sobre a "morte do GPT-4"? Pois bem, a poeira baixou um pouco, e os…
Processado por IA de Jiqizhixin (机器之心); editado por Hamidun News
Lembra daqueles tempos quando cada novo anúncio da China vinha acompanhado de gritos sobre a "morte do GPT-4"? Pois bem, a poeira baixou um pouco, e os pesquisadores decidiram fazer um inventário em larga escala do que a famosa "batalha de mil modelos" realmente gerou. Os resultados foram desalentadores. Depois de testar 304 grandes modelos de linguagem chineses, descobriu-se que não há um líder universal no mercado. Um modelo é excelente em escrever código, o segundo se faz de poeta de forma magistral, e o terceiro se sai razoavelmente bem em lógica, mas ninguém ainda conseguiu combinar tudo isso em um único "frasco". Estamos observando uma situação em que a quantidade se transformou em qualquer coisa, menos em qualidade.
O principal problema agora nem é que os modelos não sejam inteligentes o suficiente. A indústria encontrou o que é chamado de "gargalo de avaliação". Quando você tem trezentas redes neurais em seu país, verificar cada uma quanto à adequação se torna uma tarefa de proporções épicas.
Os benchmarks tradicionais há muito foram comprometidos: os desenvolvedores simplesmente "trapaceiam" procurando respostas em testes e treinam seus modelos com elas. Para obter um resultado honesto, você precisa de pessoas reais ou verificações em cascata complexas, e isso custa somas astronômicas. Em algum momento, o processo de auditoria de IA passou a custar às empresas quase tanto quanto a locação de placas gráficas para treinamento.
Diante disso, a solução da equipe ReLE parece ser uma tentativa de salvar os orçamentos dos capitalistas de risco. Eles propuseram a arquitetura Reinforcement Learning from Evaluation. Sem entrar nos detalhes das fórmulas, esta é uma maneira de otimizar o próprio processo de teste.
Em vez de executar um modelo através de milhares de perguntas semelhantes, o sistema aprende a selecionar apenas as tarefas mais informativas e difíceis. É como se em um exame um professor o fizesse responder imediatamente três das questões mais complicadas, em vez de o torturar por três horas em todo o currículo. O resultado é o mesmo, mas você gasta 70% menos tempo e recursos.
Por que isso é importante para nós? O mercado de IA chinês sempre foi um reflexo hipertrofiado de tendências globais. Se começaram a reclamar massivamente sobre os custos de avaliação, significa que em breve este problema atingirá startups ocidentais também.
Estamos entrando em uma era onde a "eficiência" se torna mais importante que a "potência". Os investidores não querem mais ouvir falar sobre quantos trilhões de parâmetros você meteu em seu modelo. Eles querem saber como você planeja provar sua viabilidade sem gastar toda a sua próxima rodada de financiamento nisso.
Também é interessante ver como a paisagem de desenvolvimento está mudando. Enquanto gigantes como Baidu ou Alibaba tentam construir esses sistemas universais, pequenas equipes encontram salvação em especialização estreita. A pesquisa mostrou que modelos especializados frequentemente superam os "generalistas" em seus nichos enquanto exigem dezenas de vezes menos recursos.
Isso questiona o próprio conceito de criar uma rede neural que tanto cozinhe borscht quanto lance foguetes no espaço. Talvez o futuro não esteja com um rei, mas com um conselho harmonioso de ministros. O ponto principal: a era da escalagem irrefletida está chegando ao fim.
Agora o vencedor será não quem treinar o maior modelo, mas quem aprender mais rápida e baratamente a separar o joio do trigo. O ReLE se tornará um novo padrão da indústria ou é apenas um remendo temporário em um mercado inchado?
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.