Habr AI→ оригинал

Пеликаны на велосипедах: странный тест Саймона Уиллисона для LLM

Саймон Уиллисон тестирует LLM промптом «сгенерируй SVG пеликана на велосипеде». Казалось бы, шутка, но результаты говорят о реальных способностях нейросетей. Ст

Пеликаны на велосипедах: странный тест Саймона Уиллисона для LLM
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Саймон Уиллисон, создатель фреймворка Django, придумал необычный способ тестировать LLM: попросить нейросеть нарисовать SVG-пеликана на велосипеде. На первый взгляд это выглядит как шутка, но результаты оказались информативнее многих серьёзных бенчмарков.

Откуда взялся тест пеликанов

Идея Уиллисона простая: способность ИИ рисовать в SVG и понимать сложные составные образы (пеликан + велосипед + движение) выявляет реальные пределы его возможностей. SVG требует структурированного кода, а не просто предсказания токенов. Это как просить ИИ не только размышлять, но и строить — воплощать идеи в конкретный формат. Оказалось, что почти каждая новая версия LLM интерпретирует задачу по-своему: некоторые генерируют синтаксически правильный SVG с анатомически узнаваемым пеликаном, другие создают причудливых птиц с приблизительной геометрией, третьи вообще путают велосипед с велосипедистом или рисуют что-то совсем неожиданное.

Что раскрывает эксперимент

Тест показывает сразу несколько параметров модели без использования классических метрик: Понимание геометрии, пропорций и пространства Способность генерировать структурированный, работающий код Интерпретация составных образов (животное + объект + действие в одном) Креативность и способность к небанальным решениям * Контроль над деталями и способность удерживать контекст Хотя SVG-пеликан не помогает напрямую оценить производительность на production-задачах, результаты часто коррелируют с общей мощностью и понимаемостью модели.

На русском: кодящие котики

Авторы статьи на Хабре перепроверили эксперимент на русском языке с промптом «сделай SVG котика, который кодит». Результаты отличались от английской версии: русскоязычные модели интерпретируют задачу по-новому. Одни добавляют портативный компьютер в лапы котику, другие рисуют экран с кодом в лапах, третьи создают кота за столом перед монитором. Это показывает, что культурный контекст и особенности языка влияют на восприятие задачи даже на уровне базовых геометрических объектов и сценариев.

Что это значит SVG-тест

Уиллисона — это напоминание, что оценка способностей LLM не сводится к стандартным бенчмаркам и натренированным наборам данных. Иногда самые простые и забавные вопросы раскрывают пределы возможностей нейросетей честнее, чем сложные профессиональные тесты. И каждая новая модель проходит этот тест по-своему, оставляя следы своего «мышления».

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…