TechCrunch→ original

Des doctorants de Berkeley sont devenus les principaux arbitres de l'industrie de l'IA : comment Arena décide quel modèle est le meilleur

Des doctorants d'UC Berkeley ont créé Arena — le principal classement des modèles de langage de facto. En sept mois, le projet s'est transformé d'une…

Traité par IA depuis TechCrunch ; édité par Hamidun News
Des doctorants de Berkeley sont devenus les principaux arbitres de l'industrie de l'IA : comment Arena décide quel modèle est le meilleur
Source : TechCrunch. Collage: Hamidun News.
◐ Écouter l'article

Tandis que les entreprises d'IA se disputent le titre du meilleur modèle, le droit de rendre un verdict est tombé entre les mains d'un groupe d'étudiants diplômés de l'Université de Californie à Berkeley. Arena, autrefois connu sous le nom de LM Arena, est devenu le principal classement public pour les modèles de frontier. Ses positions sont citées dans les communiqués de presse, prises en compte par les investisseurs en capital-risque et utilisées par les équipes de développement pour sélectionner un modèle de base.

En seulement sept mois, le projet s'est transformé d'une expérience académique en une startup à part entière avec une influence réelle sur l'industrie. Le fonctionnement d'Arena est basé sur le crowdsourcing : les utilisateurs comparent les réponses de deux modèles anonymes et votent pour le meilleur. Le système accumule des millions de telles comparaisons et les traduit en un classement utilisant la méthode Elo—les mêmes mathématiques qui évaluent les joueurs d'échecs.

L'anonymat des modèles élimine le biais de marque : l'utilisateur ne sait pas de qui est la réponse qu'il lit jusqu'à ce qu'il vote. L'infrastructure issue d'un projet universitaire influence maintenant les plus grands acteurs du marché. Lorsque OpenAI, Google ou Anthropic lancent un nouveau modèle, l'un des premiers indicateurs de succès devient sa position dans Arena.

Les fonds de capital-risque surveillent le classement lors de la prise de décisions d'investissement. Les équipes de marketing construisent des campagnes de relations publiques autour d'une ligne du classement. Cependant, le système a des limitations évidentes.

Le public d'Internet vote, pas un échantillon représentatif de professionnels. Les tâches que les utilisateurs confient aux modèles ne reflètent pas toujours les scénarios réels de production. Enfin, les utilisateurs actifs d'Arena sont généralement des enthousiastes techniquement compétents, pas le client corporatif moyen.

Néanmoins, Arena a comblé un vide que les benchmarks académiques n'ont pas pu fermer. Les tests standards comme MMLU ou HumanEval mesurent les capacités étroites dans des conditions contrôlées. Arena mesure quelque chose de plus difficile à formaliser : si les gens aiment cette réponse.

C'est ce sentiment qui détermine finalement quel modèle un utilisateur choisira. L'histoire d'Arena est un exemple instructif de la façon dont la communauté académique peut établir des normes dans une industrie en rapide développement, où les entreprises n'ont ni le temps ni les incitations pour créer une infrastructure d'évaluation neutre. La question est de savoir si cette neutralité sera préservée à mesure que la startup se développe et attire un financement externe.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…