Пеликаны на велосипедах: странный тест Саймона Уиллисона для LLM
Саймон Уиллисон тестирует LLM промптом «сгенерируй SVG пеликана на велосипеде». Казалось бы, шутка, но результаты говорят о реальных способностях нейросетей. Ст

Саймон Уиллисон, создатель фреймворка Django, придумал необычный способ тестировать LLM: попросить нейросеть нарисовать SVG-пеликана на велосипеде. На первый взгляд это выглядит как шутка, но результаты оказались информативнее многих серьёзных бенчмарков.
Откуда взялся тест пеликанов
Идея Уиллисона простая: способность ИИ рисовать в SVG и понимать сложные составные образы (пеликан + велосипед + движение) выявляет реальные пределы его возможностей. SVG требует структурированного кода, а не просто предсказания токенов. Это как просить ИИ не только размышлять, но и строить — воплощать идеи в конкретный формат. Оказалось, что почти каждая новая версия LLM интерпретирует задачу по-своему: некоторые генерируют синтаксически правильный SVG с анатомически узнаваемым пеликаном, другие создают причудливых птиц с приблизительной геометрией, третьи вообще путают велосипед с велосипедистом или рисуют что-то совсем неожиданное.
Что раскрывает эксперимент
Тест показывает сразу несколько параметров модели без использования классических метрик: Понимание геометрии, пропорций и пространства Способность генерировать структурированный, работающий код Интерпретация составных образов (животное + объект + действие в одном) Креативность и способность к небанальным решениям * Контроль над деталями и способность удерживать контекст Хотя SVG-пеликан не помогает напрямую оценить производительность на production-задачах, результаты часто коррелируют с общей мощностью и понимаемостью модели.
На русском: кодящие котики
Авторы статьи на Хабре перепроверили эксперимент на русском языке с промптом «сделай SVG котика, который кодит». Результаты отличались от английской версии: русскоязычные модели интерпретируют задачу по-новому. Одни добавляют портативный компьютер в лапы котику, другие рисуют экран с кодом в лапах, третьи создают кота за столом перед монитором. Это показывает, что культурный контекст и особенности языка влияют на восприятие задачи даже на уровне базовых геометрических объектов и сценариев.
Что это значит SVG-тест
Уиллисона — это напоминание, что оценка способностей LLM не сводится к стандартным бенчмаркам и натренированным наборам данных. Иногда самые простые и забавные вопросы раскрывают пределы возможностей нейросетей честнее, чем сложные профессиональные тесты. И каждая новая модель проходит этот тест по-своему, оставляя следы своего «мышления».