Habr AI→ original

Les pélicans à vélo : l'étrange test de Simon Willison pour les LLM

Simon Willison teste les LLM avec l'invite « génère un pélican en SVG sur un vélo ». Bien que cela semble être une plaisanterie, les résultats révèlent les…

Traité par IA depuis Habr AI ; édité par Hamidun News
Les pélicans à vélo : l'étrange test de Simon Willison pour les LLM
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Simon Willison, créateur du framework Django, a inventé un moyen inhabituel de tester les LLM : demander au réseau de neurones de dessiner un pélican en SVG sur un vélo. À première vue, cela semble être une plaisanterie, mais les résultats se sont avérés plus informatifs que de nombreux benchmarks sérieux.

D'où vient le test des pélicans

L'idée de Willison est simple : la capacité de l'IA à dessiner en SVG et à comprendre des images composées complexes (pélican + vélo + mouvement) révèle les véritables limites de ses capacités. SVG requiert un code structuré, pas simplement une prédiction de tokens. C'est comme demander à l'IA non seulement de réfléchir, mais de construire — de concrétiser les idées dans un format spécifique. Il s'avère que presque chaque nouvelle version du LLM interprète la tâche à sa manière : certaines génèrent un SVG syntaxiquement correct avec un pélican anatomiquement reconnaissable, d'autres créent des oiseaux bizarres avec une géométrie approximative, d'autres encore confondent le vélo avec le cycliste ou dessinent quelque chose de tout à fait inattendu.

Ce que révèle l'expérience

Le test révèle immédiatement plusieurs paramètres du modèle sans utiliser de métriques classiques :

  • Compréhension de la géométrie, des proportions et de l'espace
  • Capacité à générer un code structuré et fonctionnel
  • Interprétation d'images composées (animal + objet + action en une seule)
  • Créativité et capacité à trouver des solutions non triviales
  • Contrôle des détails et capacité à maintenir le contexte

Bien que le pélican SVG n'aide pas directement à évaluer les performances sur les tâches en production, les résultats sont souvent corrélés avec la puissance générale et la compréhension du modèle.

En russe : les chatons qui codent

Les auteurs de l'article sur Habr ont réexaminé l'expérience en russe avec l'invite « crée un chat en SVG qui code ». Les résultats différaient de la version anglaise : les modèles russophones interprètent la tâche différemment. Certains ajoutent un ordinateur portable dans les pattes du chat, d'autres dessinent un écran avec du code dans les pattes, d'autres créent un chat assis à un bureau devant un moniteur. Cela montre que le contexte culturel et les particularités de la langue influencent la perception de la tâche même au niveau des objets géométriques de base et des scénarios.

Ce que cela signifie

Le test SVG de Willison est un rappel que l'évaluation des capacités des LLM ne se réduit pas aux benchmarks standards et aux jeux de données d'entraînement. Parfois, les questions les plus simples et amusantes révèlent les limites des capacités des réseaux de neurones de manière plus honnête que les tests professionnels complexes. Et chaque nouveau modèle réussit ce test à sa manière, laissant des traces de sa « pensée ».

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…