TechCrunch→ оригинал

Pós-graduandos de Berkeley se tornaram os principais juízes da indústria de IA: como Arena decide qual modelo é o melhor

Pós-graduandos da UC Berkeley criaram Arena — o principal ranking de modelos de linguagem de fato. Em sete meses, o projeto cresceu de um experimento de pesquis

Pós-graduandos de Berkeley se tornaram os principais juízes da indústria de IA: como Arena decide qual modelo é o melhor
Источник: TechCrunch. Коллаж: Hamidun News.

Пока AI-компании соревнуются за звание лучшей модели, право выносить вердикт оказалось у группы аспирантов из Калифорнийского университета в Беркли. Arena, ранее известная как LM Arena, стала главным публичным лидербордом для frontier-моделей. Именно её позиции цитируют в пресс-релизах, учитывают венчурные инвесторы и используют команды разработчиков при выборе базовой модели.

Всего за семь месяцев проект трансформировался из академического эксперимента в полноценный стартап с реальным влиянием на индустрию. Принцип работы Arena построен на краудсорсинге: пользователи сравнивают ответы двух анонимных моделей и голосуют за лучший. Система накапливает миллионы таких сравнений и переводит их в рейтинг по методу Эло — той же математике, что оценивает шахматистов.

Анонимность моделей исключает предвзятость бренда: пользователь не знает, чей ответ читает, пока не проголосует. Инфраструктура, выросшая из университетского проекта, сегодня влияет на крупнейших игроков рынка. Когда OpenAI, Google или Anthropic выпускают новую модель, одним из первых индикаторов успеха становится её позиция в Arena.

Венчурные фонды следят за рейтингом при принятии инвестиционных решений. Маркетинговые команды строят PR-кампании вокруг строчки в лидерборде. При этом у системы есть очевидные ограничения.

Голосует интернет-аудитория, а не репрезентативная выборка профессионалов. Задачи, которые пользователи задают моделям, не всегда отражают реальные производственные сценарии. Наконец, активные пользователи Arena — это, как правило, технически грамотные энтузиасты, а не средний корпоративный клиент.

Тем не менее Arena заполнила вакуум, который не смогли закрыть академические бенчмарки. Стандартные тесты вроде MMLU или HumanEval измеряют узкие возможности в контролируемых условиях. Arena измеряет то, что труднее всего формализовать: нравится ли людям этот ответ.

Именно это ощущение в конечном счёте определяет, какую модель выберет пользователь. История Arena — показательный пример того, как академическое сообщество способно задавать стандарты в быстро развивающейся отрасли, где у корпораций нет ни времени, ни стимулов создавать нейтральную инфраструктуру оценки. Вопрос в том, сохранится ли эта нейтральность по мере того, как стартап растёт и привлекает внешнее финансирование.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…