Estudiantes de posgrado de Berkeley se convirtieron en los principales árbitros de la industria de IA: cómo Arena decide cuál es el mejor modelo
Estudiantes de posgrado de UC Berkeley crearon Arena — el principal ranking de modelos de lenguaje de facto. En siete meses, el proyecto creció de un experiment

Пока AI-компании соревнуются за звание лучшей модели, право выносить вердикт оказалось у группы аспирантов из Калифорнийского университета в Беркли. Arena, ранее известная как LM Arena, стала главным публичным лидербордом для frontier-моделей. Именно её позиции цитируют в пресс-релизах, учитывают венчурные инвесторы и используют команды разработчиков при выборе базовой модели.
Всего за семь месяцев проект трансформировался из академического эксперимента в полноценный стартап с реальным влиянием на индустрию. Принцип работы Arena построен на краудсорсинге: пользователи сравнивают ответы двух анонимных моделей и голосуют за лучший. Система накапливает миллионы таких сравнений и переводит их в рейтинг по методу Эло — той же математике, что оценивает шахматистов.
Анонимность моделей исключает предвзятость бренда: пользователь не знает, чей ответ читает, пока не проголосует. Инфраструктура, выросшая из университетского проекта, сегодня влияет на крупнейших игроков рынка. Когда OpenAI, Google или Anthropic выпускают новую модель, одним из первых индикаторов успеха становится её позиция в Arena.
Венчурные фонды следят за рейтингом при принятии инвестиционных решений. Маркетинговые команды строят PR-кампании вокруг строчки в лидерборде. При этом у системы есть очевидные ограничения.
Голосует интернет-аудитория, а не репрезентативная выборка профессионалов. Задачи, которые пользователи задают моделям, не всегда отражают реальные производственные сценарии. Наконец, активные пользователи Arena — это, как правило, технически грамотные энтузиасты, а не средний корпоративный клиент.
Тем не менее Arena заполнила вакуум, который не смогли закрыть академические бенчмарки. Стандартные тесты вроде MMLU или HumanEval измеряют узкие возможности в контролируемых условиях. Arena измеряет то, что труднее всего формализовать: нравится ли людям этот ответ.
Именно это ощущение в конечном счёте определяет, какую модель выберет пользователь. История Arena — показательный пример того, как академическое сообщество способно задавать стандарты в быстро развивающейся отрасли, где у корпораций нет ни времени, ни стимулов создавать нейтральную инфраструктуру оценки. Вопрос в том, сохранится ли эта нейтральность по мере того, как стартап растёт и привлекает внешнее финансирование.