Аспиранты из Беркли стали главными судьями AI-индустрии: как Arena решает, какая модель лучше
Аспиранты UC Berkeley создали Arena — де-факто главный рейтинг языковых моделей. За семь месяцев проект вырос из исследовательского эксперимента в стартап, чьи

Пока AI-компании соревнуются за звание лучшей модели, право выносить вердикт оказалось у группы аспирантов из Калифорнийского университета в Беркли. Arena, ранее известная как LM Arena, стала главным публичным лидербордом для frontier-моделей. Именно её позиции цитируют в пресс-релизах, учитывают венчурные инвесторы и используют команды разработчиков при выборе базовой модели.
Всего за семь месяцев проект трансформировался из академического эксперимента в полноценный стартап с реальным влиянием на индустрию. Принцип работы Arena построен на краудсорсинге: пользователи сравнивают ответы двух анонимных моделей и голосуют за лучший. Система накапливает миллионы таких сравнений и переводит их в рейтинг по методу Эло — той же математике, что оценивает шахматистов.
Анонимность моделей исключает предвзятость бренда: пользователь не знает, чей ответ читает, пока не проголосует. Инфраструктура, выросшая из университетского проекта, сегодня влияет на крупнейших игроков рынка. Когда OpenAI, Google или Anthropic выпускают новую модель, одним из первых индикаторов успеха становится её позиция в Arena.
Венчурные фонды следят за рейтингом при принятии инвестиционных решений. Маркетинговые команды строят PR-кампании вокруг строчки в лидерборде. При этом у системы есть очевидные ограничения.
Голосует интернет-аудитория, а не репрезентативная выборка профессионалов. Задачи, которые пользователи задают моделям, не всегда отражают реальные производственные сценарии. Наконец, активные пользователи Arena — это, как правило, технически грамотные энтузиасты, а не средний корпоративный клиент.
Тем не менее Arena заполнила вакуум, который не смогли закрыть академические бенчмарки. Стандартные тесты вроде MMLU или HumanEval измеряют узкие возможности в контролируемых условиях. Arena измеряет то, что труднее всего формализовать: нравится ли людям этот ответ.
Именно это ощущение в конечном счёте определяет, какую модель выберет пользователь. История Arena — показательный пример того, как академическое сообщество способно задавать стандарты в быстро развивающейся отрасли, где у корпораций нет ни времени, ни стимулов создавать нейтральную инфраструктуру оценки. Вопрос в том, сохранится ли эта нейтральность по мере того, как стартап растёт и привлекает внешнее финансирование.