Pós-graduandos de Berkeley se tornaram os principais juízes da indústria de IA: como Arena decide qual modelo é o melhor

Q: Qual é a fonte?

Publicado originalmente em TechCrunch. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

22 de abr. de 2026. Tempo de leitura: 2 min.

Pós-graduandos da UC Berkeley criaram Arena — o principal ranking de modelos de linguagem de fato. Em sete meses, o projeto cresceu de um experimento de…

Redação da Hamidun News

Monitoramento de AI · TechCrunch

22 de abr. de 2026· 1 min

Processado por IA de TechCrunch; editado por Hamidun News

Pós-graduandos de Berkeley se tornaram os principais juízes da indústria de IA: como Arena decide qual modelo é o melhor — Fonte: TechCrunch. Colagem: Hamidun News.

◐ Ouvir artigo

Enquanto as empresas de IA competem pelo título de melhor modelo, o direito de dar o veredito recaiu sobre um grupo de pós-graduandos da Universidade da Califórnia em Berkeley. Arena, anteriormente conhecida como LM Arena, tornou-se o principal ranking público para modelos de fronteira. Suas posições são citadas em comunicados à imprensa, consideradas por investidores de risco e utilizadas por equipes de desenvolvimento na escolha de um modelo base.

Em apenas sete meses, o projeto se transformou de um experimento acadêmico em uma startup completa com influência real na indústria. O princípio de funcionamento da Arena é baseado em crowdsourcing: usuários comparam respostas de dois modelos anônimos e votam no melhor. O sistema acumula milhões de tais comparações e as converte em um ranking usando o método Elo—a mesma matemática que classifica enxadristas.

O anonimato dos modelos elimina o viés de marca: o usuário não sabe de quem é a resposta que está lendo até votar. A infraestrutura que cresceu a partir de um projeto universitário agora influencia os maiores players do mercado. Quando OpenAI, Google ou Anthropic lançam um novo modelo, um dos primeiros indicadores de sucesso é sua posição na Arena.

Fundos de capital de risco monitoram o ranking ao tomar decisões de investimento. Equipes de marketing constroem campanhas de relações públicas em torno de uma linha no ranking. No entanto, o sistema tem limitações óbvias.

O público da internet vota, não uma amostra representativa de profissionais. As tarefas que os usuários apresentam aos modelos nem sempre refletem cenários reais de produção. Por fim, os usuários ativos da Arena são tipicamente entusiastas tecnicamente competentes, não o cliente corporativo médio.

Mesmo assim, Arena preencheu uma lacuna que os benchmarks acadêmicos não conseguiram fechar. Testes padrão como MMLU ou HumanEval medem capacidades estreitas em condições controladas. Arena mede algo mais difícil de formalizar: se as pessoas gostam dessa resposta.

Esse sentimento acaba determinando qual modelo um usuário escolherá. A história da Arena é um exemplo instrutivo de como a comunidade acadêmica pode estabelecer padrões em uma indústria em rápido desenvolvimento, onde as corporações não têm tempo nem incentivo para criar uma infraestrutura de avaliação neutra. A questão é se essa neutralidade será mantida enquanto a startup cresce e atrai financiamento externo.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis