Аспиранты из Беркли стали главными судьями AI-индустрии: как Arena решает, какая модель лучше

Q: Источник материала?

Оригинальная публикация на TechCrunch. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

22 апр. 2026 г.. Время чтения: 2 мин.

Аспиранты UC Berkeley создали Arena — де-факто главный рейтинг языковых моделей. За семь месяцев проект вырос из исследовательского эксперимента в стартап…

ЖХ

Редакция Hamidun News

AI‑мониторинг · TechCrunch

22 апр. 2026 г.· 1 мин

AI-обработка оригинала TechCrunch; редакция Hamidun News

Аспиранты из Беркли стали главными судьями AI-индустрии: как Arena решает, какая модель лучше — Источник: TechCrunch. Коллаж: Hamidun News.

◐ Слушать статью

Пока AI-компании соревнуются за звание лучшей модели, право выносить вердикт оказалось у группы аспирантов из Калифорнийского университета в Беркли. Arena, ранее известная как LM Arena, стала главным публичным лидербордом для frontier-моделей. Именно её позиции цитируют в пресс-релизах, учитывают венчурные инвесторы и используют команды разработчиков при выборе базовой модели.

Всего за семь месяцев проект трансформировался из академического эксперимента в полноценный стартап с реальным влиянием на индустрию. Принцип работы Arena построен на краудсорсинге: пользователи сравнивают ответы двух анонимных моделей и голосуют за лучший. Система накапливает миллионы таких сравнений и переводит их в рейтинг по методу Эло — той же математике, что оценивает шахматистов.

Анонимность моделей исключает предвзятость бренда: пользователь не знает, чей ответ читает, пока не проголосует. Инфраструктура, выросшая из университетского проекта, сегодня влияет на крупнейших игроков рынка. Когда OpenAI, Google или Anthropic выпускают новую модель, одним из первых индикаторов успеха становится её позиция в Arena.

Венчурные фонды следят за рейтингом при принятии инвестиционных решений. Маркетинговые команды строят PR-кампании вокруг строчки в лидерборде. При этом у системы есть очевидные ограничения.

Голосует интернет-аудитория, а не репрезентативная выборка профессионалов. Задачи, которые пользователи задают моделям, не всегда отражают реальные производственные сценарии. Наконец, активные пользователи Arena — это, как правило, технически грамотные энтузиасты, а не средний корпоративный клиент.

Тем не менее Arena заполнила вакуум, который не смогли закрыть академические бенчмарки. Стандартные тесты вроде MMLU или HumanEval измеряют узкие возможности в контролируемых условиях. Arena измеряет то, что труднее всего формализовать: нравится ли людям этот ответ.

Именно это ощущение в конечном счёте определяет, какую модель выберет пользователь. История Arena — показательный пример того, как академическое сообщество способно задавать стандарты в быстро развивающейся отрасли, где у корпораций нет ни времени, ни стимулов создавать нейтральную инфраструктуру оценки. Вопрос в том, сохранится ли эта нейтральность по мере того, как стартап растёт и привлекает внешнее финансирование.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация