TechCrunch→ оригинал

Arena: AI model ranking that can't be gamed — and funded by those it judges

Arena is an AI model ranking that can't be gamed. The startup grew from a PhD research project at Berkeley and in seven months became the de facto arbiter of th

Arena: AI model ranking that can't be gamed — and funded by those it judges
Источник: TechCrunch. Коллаж: Hamidun News.

На рынке языковых моделей сотни участников, и каждый называет себя лучшим. Вопрос о том, кто решает, кто на самом деле лучший, оказался не философским — он превратился в бизнес. Arena, ранее известная как LM Arena, стала главным публичным судьёй для фронтирных LLM и за семь месяцев прошла путь от университетского исследования до стартапа с реальным влиянием на индустрию.

Проект вырос из работы аспирантов Калифорнийского университета в Беркли. Идея простая: вместо того чтобы доверять бенчмаркам, которые компании могут подгонять под себя, попросить живых людей слепо сравнить два ответа от анонимных моделей и выбрать лучший. Система Elo, знакомая по шахматным рейтингам, превращает миллионы таких голосований в единый рейтинг.

Манипулировать им крайне сложно: ты не знаешь, за какую модель голосуешь, а масштаб выборки нивелирует случайные выбросы. Эффект оказался неожиданно мощным. Позиция в Arena начала влиять на то, как венчурные инвесторы воспринимают модели, когда компании анонсируют запуски и как строится PR-нарратив вокруг новых релизов.

Попасть в топ рейтинга — значит получить независимое подтверждение качества, которое не оспорить ссылкой на внутренние тесты. Но у системы есть структурный парадокс, который поднимает неудобные вопросы. Arena финансируется теми самыми компаниями, которых она оценивает.

OpenAI, Anthropic, Google, Meta и другие крупные игроки так или иначе поддерживают платформу. Это создаёт потенциальный конфликт интересов: независимый судья получает деньги от подсудимых. Команда проекта настаивает на том, что методология защищает от влияния спонсоров — анонимность голосований и открытость данных не оставляют точки входа для манипуляций.

Критики, однако, указывают: сам факт финансовой зависимости подрывает доверие, даже если технически всё честно. Отдельный вопрос — что именно измеряет Arena. Рейтинг отражает предпочтения пользователей в открытом диалоге, а не способность модели решать специализированные задачи: писать код, анализировать документы, работать с данными.

Модель, которая нравится широкой аудитории в бытовых разговорах, может уступать конкурентам там, где важна точность. Это не делает рейтинг бесполезным — он честно измеряет то, что измеряет. Но ставить знак равенства между позицией в Arena и общим качеством модели было бы упрощением.

Тем не менее за последние два года Arena стала точкой отсчёта, которую индустрия не может игнорировать. Компании строят маркетинговые кампании вокруг высоких позиций, исследователи цитируют рейтинг в академических работах, журналисты используют его как быстрый ориентир при освещении новых запусков. Влияние реальное — вне зависимости от споров о методологии.

История Arena показывает, как стремительно в ИИ-индустрии формируются неформальные институты власти. Никто не назначал этот рейтинг стандартом — он им стал, потому что заполнил вакуум. Рынок нуждался в независимой оценке, и первый, кто предложил убедительный механизм, получил непропорционально большое влияние.

Вопрос в том, как долго это равновесие продержится по мере того, как ставки растут, а конфликт интересов становится всё заметнее.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…