Pelicanos em bicicletas: o teste estranho de Simon Willison para LLM
Simon Willison testa LLM com o prompt 'gere um pelicano SVG em uma bicicleta'. Parece uma brincadeira, mas os resultados revelam as capacidades reais das…
Processado por IA de Habr AI; editado por Hamidun News
Simon Willison, criador do framework Django, inventou uma forma inusitada de testar LLM: pedir à rede neural para desenhar um pelicano SVG em uma bicicleta. À primeira vista parece uma brincadeira, mas os resultados se mostraram mais informativos do que muitos benchmarks sérios.
De onde surgiu o teste dos pelicanos
A ideia de Willison é simples: a capacidade da IA em desenhar em SVG e entender imagens compostas complexas (pelicano + bicicleta + movimento) revela os limites reais de suas capacidades. SVG requer código estruturado, não apenas previsão de tokens. É como pedir à IA não apenas pensar, mas também construir — materializar ideias em um formato concreto. Descobriu-se que quase cada nova versão de LLM interpreta a tarefa de forma diferente: algumas geram SVG sintaticamente correto com um pelicano anatomicamente reconhecível, outras criam pássaros caprichosos com geometria aproximada, e outras confundem a bicicleta com o ciclista ou desenham algo completamente inesperado.
O que o experimento revela
O teste revela vários parâmetros do modelo sem usar métricas clássicas:
- Compreensão de geometria, proporções e espaço
- Capacidade de gerar código estruturado e funcional
- Interpretação de imagens compostas (animal + objeto + ação em uma)
- Criatividade e capacidade para soluções não-triviais
- Controle de detalhes e capacidade de manter contexto
Embora o pelicano SVG não ajude diretamente a avaliar o desempenho em tarefas de produção, os resultados frequentemente correlacionam com a potência geral e a compreensibilidade do modelo.
Em russo: gatinhos codificando
Os autores do artigo no Habr reproduziram o experimento em russo com o prompt 'faça um gato SVG que está codificando'. Os resultados foram diferentes da versão em inglês: modelos de linguagem em russo interpretam a tarefa de forma diferente. Alguns adicionam um laptop nas patas do gato, outros desenham uma tela com código nas patas, e outros criam um gato à mesa diante de um monitor. Isso mostra que o contexto cultural e as características da língua influenciam a percepção da tarefa até mesmo no nível de objetos geométricos básicos e cenários.
O que isso significa
O teste SVG de Willison é um lembrete de que avaliar as capacidades do LLM não se resume a benchmarks padrão e conjuntos de dados de treinamento. Às vezes, as perguntas mais simples e divertidas revelam os limites das capacidades das redes neurais de forma mais honesta do que testes profissionais complexos. E cada novo modelo passa por este teste de forma diferente, deixando rastros de seu 'pensamento'.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.