Habr AI→ original

Pelicanos em bicicletas: o teste estranho de Simon Willison para LLM

Simon Willison testa LLM com o prompt 'gere um pelicano SVG em uma bicicleta'. Parece uma brincadeira, mas os resultados revelam as capacidades reais das…

Processado por IA de Habr AI; editado por Hamidun News
Pelicanos em bicicletas: o teste estranho de Simon Willison para LLM
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Simon Willison, criador do framework Django, inventou uma forma inusitada de testar LLM: pedir à rede neural para desenhar um pelicano SVG em uma bicicleta. À primeira vista parece uma brincadeira, mas os resultados se mostraram mais informativos do que muitos benchmarks sérios.

De onde surgiu o teste dos pelicanos

A ideia de Willison é simples: a capacidade da IA em desenhar em SVG e entender imagens compostas complexas (pelicano + bicicleta + movimento) revela os limites reais de suas capacidades. SVG requer código estruturado, não apenas previsão de tokens. É como pedir à IA não apenas pensar, mas também construir — materializar ideias em um formato concreto. Descobriu-se que quase cada nova versão de LLM interpreta a tarefa de forma diferente: algumas geram SVG sintaticamente correto com um pelicano anatomicamente reconhecível, outras criam pássaros caprichosos com geometria aproximada, e outras confundem a bicicleta com o ciclista ou desenham algo completamente inesperado.

O que o experimento revela

O teste revela vários parâmetros do modelo sem usar métricas clássicas:

  • Compreensão de geometria, proporções e espaço
  • Capacidade de gerar código estruturado e funcional
  • Interpretação de imagens compostas (animal + objeto + ação em uma)
  • Criatividade e capacidade para soluções não-triviais
  • Controle de detalhes e capacidade de manter contexto

Embora o pelicano SVG não ajude diretamente a avaliar o desempenho em tarefas de produção, os resultados frequentemente correlacionam com a potência geral e a compreensibilidade do modelo.

Em russo: gatinhos codificando

Os autores do artigo no Habr reproduziram o experimento em russo com o prompt 'faça um gato SVG que está codificando'. Os resultados foram diferentes da versão em inglês: modelos de linguagem em russo interpretam a tarefa de forma diferente. Alguns adicionam um laptop nas patas do gato, outros desenham uma tela com código nas patas, e outros criam um gato à mesa diante de um monitor. Isso mostra que o contexto cultural e as características da língua influenciam a percepção da tarefa até mesmo no nível de objetos geométricos básicos e cenários.

O que isso significa

O teste SVG de Willison é um lembrete de que avaliar as capacidades do LLM não se resume a benchmarks padrão e conjuntos de dados de treinamento. Às vezes, as perguntas mais simples e divertidas revelam os limites das capacidades das redes neurais de forma mais honesta do que testes profissionais complexos. E cada novo modelo passa por este teste de forma diferente, deixando rastros de seu 'pensamento'.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…