Pós-graduandos de Berkeley se tornaram os principais juízes da indústria de IA: como Arena decide qual modelo é o melhor

Q: Источник материала?

Оригинальная публикация на TechCrunch. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-22. Время чтения: 2 мин.

Pós-graduandos da UC Berkeley criaram Arena — o principal ranking de modelos de linguagem de fato. Em sete meses, o projeto cresceu de um experimento de pesquis

ЖХ

Редакция Hamidun News

AI‑мониторинг · TechCrunch

2026-04-22· 1 мин

Pós-graduandos de Berkeley se tornaram os principais juízes da indústria de IA: como Arena decide qual modelo é o melhor — Источник: TechCrunch. Коллаж: Hamidun News.

Пока AI-компании соревнуются за звание лучшей модели, право выносить вердикт оказалось у группы аспирантов из Калифорнийского университета в Беркли. Arena, ранее известная как LM Arena, стала главным публичным лидербордом для frontier-моделей. Именно её позиции цитируют в пресс-релизах, учитывают венчурные инвесторы и используют команды разработчиков при выборе базовой модели.

Всего за семь месяцев проект трансформировался из академического эксперимента в полноценный стартап с реальным влиянием на индустрию. Принцип работы Arena построен на краудсорсинге: пользователи сравнивают ответы двух анонимных моделей и голосуют за лучший. Система накапливает миллионы таких сравнений и переводит их в рейтинг по методу Эло — той же математике, что оценивает шахматистов.

Анонимность моделей исключает предвзятость бренда: пользователь не знает, чей ответ читает, пока не проголосует. Инфраструктура, выросшая из университетского проекта, сегодня влияет на крупнейших игроков рынка. Когда OpenAI, Google или Anthropic выпускают новую модель, одним из первых индикаторов успеха становится её позиция в Arena.

Венчурные фонды следят за рейтингом при принятии инвестиционных решений. Маркетинговые команды строят PR-кампании вокруг строчки в лидерборде. При этом у системы есть очевидные ограничения.

Голосует интернет-аудитория, а не репрезентативная выборка профессионалов. Задачи, которые пользователи задают моделям, не всегда отражают реальные производственные сценарии. Наконец, активные пользователи Arena — это, как правило, технически грамотные энтузиасты, а не средний корпоративный клиент.

Тем не менее Arena заполнила вакуум, который не смогли закрыть академические бенчмарки. Стандартные тесты вроде MMLU или HumanEval измеряют узкие возможности в контролируемых условиях. Arena измеряет то, что труднее всего формализовать: нравится ли людям этот ответ.

Именно это ощущение в конечном счёте определяет, какую модель выберет пользователь. История Arena — показательный пример того, как академическое сообщество способно задавать стандарты в быстро развивающейся отрасли, где у корпораций нет ни времени, ни стимулов создавать нейтральную инфраструктуру оценки. Вопрос в том, сохранится ли эта нейтральность по мере того, как стартап растёт и привлекает внешнее финансирование.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com