Habr AI→ original

Пеликаны на велосипедах: странный тест Саймона Уиллисона для LLM

Саймон Уиллисон тестирует LLM промптом «сгенерируй SVG пеликана на велосипеде». Казалось бы, шутка, но результаты говорят о реальных способностях нейросетей. Ст

Traité par IA depuis Habr AI ; édité par Hamidun News
Пеликаны на велосипедах: странный тест Саймона Уиллисона для LLM
Source : Habr AI. Collage: Hamidun News.

Саймон Уиллисон, создатель фреймворка Django, придумал необычный способ тестировать LLM: попросить нейросеть нарисовать SVG-пеликана на велосипеде. На первый взгляд это выглядит как шутка, но результаты оказались информативнее многих серьёзных бенчмарков.

Откуда взялся тест пеликанов

Идея Уиллисона простая: способность ИИ рисовать в SVG и понимать сложные составные образы (пеликан + велосипед + движение) выявляет реальные пределы его возможностей. SVG требует структурированного кода, а не просто предсказания токенов. Это как просить ИИ не только размышлять, но и строить — воплощать идеи в конкретный формат. Оказалось, что почти каждая новая версия LLM интерпретирует задачу по-своему: некоторые генерируют синтаксически правильный SVG с анатомически узнаваемым пеликаном, другие создают причудливых птиц с приблизительной геометрией, третьи вообще путают велосипед с велосипедистом или рисуют что-то совсем неожиданное.

Что раскрывает эксперимент

Тест показывает сразу несколько параметров модели без использования классических метрик: Понимание геометрии, пропорций и пространства Способность генерировать структурированный, работающий код Интерпретация составных образов (животное + объект + действие в одном) Креативность и способность к небанальным решениям * Контроль над деталями и способность удерживать контекст Хотя SVG-пеликан не помогает напрямую оценить производительность на production-задачах, результаты часто коррелируют с общей мощностью и понимаемостью модели.

На русском: кодящие котики

Авторы статьи на Хабре перепроверили эксперимент на русском языке с промптом «сделай SVG котика, который кодит». Результаты отличались от английской версии: русскоязычные модели интерпретируют задачу по-новому. Одни добавляют портативный компьютер в лапы котику, другие рисуют экран с кодом в лапах, третьи создают кота за столом перед монитором. Это показывает, что культурный контекст и особенности языка влияют на восприятие задачи даже на уровне базовых геометрических объектов и сценариев.

Что это значит SVG-тест

Уиллисона — это напоминание, что оценка способностей LLM не сводится к стандартным бенчмаркам и натренированным наборам данных. Иногда самые простые и забавные вопросы раскрывают пределы возможностей нейросетей честнее, чем сложные профессиональные тесты. И каждая новая модель проходит этот тест по-своему, оставляя следы своего «мышления».

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…