Habr AI→ original

Pelícanos en bicicletas: la extraña prueba de Simon Willison para LLMs

Simon Willison prueba los LLMs con el prompt «genera un pelícano SVG en bicicleta». Parece una broma, pero los resultados hablan de las capacidades reales de…

Procesado por IA desde Habr AI; editado por Hamidun News
Pelícanos en bicicletas: la extraña prueba de Simon Willison para LLMs
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Simon Willison, creador del framework Django, inventó una forma inusual de probar los LLMs: pedir a una red neuronal que dibuje un pelícano SVG en bicicleta. A primera vista parece una broma, pero los resultados resultaron ser más informativos que muchas pruebas serias.

De dónde surgió la prueba de los pelícanos

La idea de Willison es simple: la capacidad de la IA para dibujar en SVG y comprender imágenes complejas compuestas (pelícano + bicicleta + movimiento) revela los límites reales de sus capacidades. SVG requiere código estructurado, no solo predicción de tokens. Es como pedirle a la IA no solo que piense, sino que construya, que materialice ideas en un formato concreto.

Resultó que casi cada nueva versión de LLM interpreta la tarea de manera diferente: algunos generan SVG sintácticamente correcto con un pelícano anatómicamente reconocible, otros crean pájaros caprichosos con geometría aproximada, otros confunden la bicicleta con el ciclista o dibujan algo completamente inesperado.

Qué revela el experimento

La prueba muestra varios parámetros del modelo de una sola vez sin usar métricas clásicas:

  • Comprensión de geometría, proporciones y espacio
  • Capacidad para generar código estructurado y funcional
  • Interpretación de imágenes compuestas (animal + objeto + acción en uno)
  • Creatividad y capacidad para soluciones no triviales
  • Control sobre detalles y capacidad para mantener el contexto

Aunque el pelícano SVG no ayuda directamente a evaluar el rendimiento en tareas de producción, los resultados a menudo se correlacionan con la potencia general e inteligibilidad del modelo.

En ruso: gatitos que codifican

Los autores del artículo en Habr verificaron el experimento en idioma ruso con el prompt «crea un SVG de un gatito que codifica». Los resultados diferían de la versión en inglés: los modelos en idioma ruso interpretan la tarea de manera nueva.

Algunos añaden una computadora portátil en las patas del gatito, otros dibujan una pantalla con código en las patas, otros crean un gato sentado en una mesa frente a un monitor. Esto muestra que el contexto cultural y las características del idioma influyen en la percepción de la tarea incluso a nivel de objetos geométricos básicos y escenarios.

Qué significa esto

La prueba SVG de Willison es un recordatorio de que la evaluación de las capacidades de los LLMs no se reduce a pruebas estándar y conjuntos de datos entrenados. A veces, las preguntas más simples y divertidas revelan los límites de las capacidades de las redes neuronales de manera más honesta que las pruebas profesionales complejas. Y cada nuevo modelo pasa la prueba a su manera, dejando rastros de su «pensamiento».

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…