Pós-graduandos de Berkeley se tornaram os principais juízes da indústria de IA: como Arena decide qual modelo é o melhor
Pós-graduandos da UC Berkeley criaram Arena — o principal ranking de modelos de linguagem de fato. Em sete meses, o projeto cresceu de um experimento de…
Processado por IA de TechCrunch; editado por Hamidun News
Enquanto as empresas de IA competem pelo título de melhor modelo, o direito de dar o veredito recaiu sobre um grupo de pós-graduandos da Universidade da Califórnia em Berkeley. Arena, anteriormente conhecida como LM Arena, tornou-se o principal ranking público para modelos de fronteira. Suas posições são citadas em comunicados à imprensa, consideradas por investidores de risco e utilizadas por equipes de desenvolvimento na escolha de um modelo base.
Em apenas sete meses, o projeto se transformou de um experimento acadêmico em uma startup completa com influência real na indústria. O princípio de funcionamento da Arena é baseado em crowdsourcing: usuários comparam respostas de dois modelos anônimos e votam no melhor. O sistema acumula milhões de tais comparações e as converte em um ranking usando o método Elo—a mesma matemática que classifica enxadristas.
O anonimato dos modelos elimina o viés de marca: o usuário não sabe de quem é a resposta que está lendo até votar. A infraestrutura que cresceu a partir de um projeto universitário agora influencia os maiores players do mercado. Quando OpenAI, Google ou Anthropic lançam um novo modelo, um dos primeiros indicadores de sucesso é sua posição na Arena.
Fundos de capital de risco monitoram o ranking ao tomar decisões de investimento. Equipes de marketing constroem campanhas de relações públicas em torno de uma linha no ranking. No entanto, o sistema tem limitações óbvias.
O público da internet vota, não uma amostra representativa de profissionais. As tarefas que os usuários apresentam aos modelos nem sempre refletem cenários reais de produção. Por fim, os usuários ativos da Arena são tipicamente entusiastas tecnicamente competentes, não o cliente corporativo médio.
Mesmo assim, Arena preencheu uma lacuna que os benchmarks acadêmicos não conseguiram fechar. Testes padrão como MMLU ou HumanEval medem capacidades estreitas em condições controladas. Arena mede algo mais difícil de formalizar: se as pessoas gostam dessa resposta.
Esse sentimento acaba determinando qual modelo um usuário escolherá. A história da Arena é um exemplo instrutivo de como a comunidade acadêmica pode estabelecer padrões em uma indústria em rápido desenvolvimento, onde as corporações não têm tempo nem incentivo para criar uma infraestrutura de avaliação neutra. A questão é se essa neutralidade será mantida enquanto a startup cresce e atrai financiamento externo.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.