Habr AI→ оригинал

Как 15 AI решают поиск оптимального XML-парсера для iOS: результаты бенчмарка

Разработчик проверил, как 15 популярных AI-моделей справляются с поиском быстрого XML-парсера для iOS, сравнив результаты со своим ручным бенчмарком. Разработчи

Как 15 AI решают поиск оптимального XML-парсера для iOS: результаты бенчмарка
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Разработчик провел необычный эксперимент: загрузил одну и ту же задачу в 15 популярных AI-моделей и сравнил их результаты со своим ручным бенчмарком XML-парсеров для iOS.

О чём была задача

Полгода назад автор опубликовал результаты собственного поиска — какой XML-парсер для iOS, tvOS и macOS работает быстрее всех. Это была кропотливая работа: несколько часов анализировать GitHub-репозитории вручную, проверять популярность (минимум 500 звезд), поддержку языков Objective-C и Swift, интеграцию через CocoaPods или SwiftPM. За три часа упорной работы (и несколько чашек кофе) родился полноценный рейтинг оптимальных парсеров.

Может ли AI справиться быстрее

Потом пришла естественная мысль: зачем тратить 3 часа, если в интернете обещают, что AI справятся за 5 минут? Более того, есть реальный шанс, что в ручном бенчмарке где-то прокралась ошибка — неправильная интерпретация кода, упущенная деталь в характеристиках. И если это так, то AI, обладающие колоссальными объёмами знаний, возможно, найдут более правильный результат. Решение было естественным: загнать одну и ту же задачу в 15 разных AI-моделей (OpenAI, Anthropic, Google, Meta, Xai, Perplexity и другие), собрать их результаты и честно сравнить между собой и с оригинальным бенчмарком. Справедливый экспе­ри­мент.

Результаты разочаровали Результаты оказались далеки от ожиданий.

Вопреки всему, GPT 5.5 Pro не только не справился лучше остальных — он заработал последнее место. Это шокировало сразу: флагман OpenAI проиграл во всех категориях анализа, выявления популярных репозиториев и оценки производительности парсеров. Claude Opus 4.7, славящийся глубоким анализом и способностью удерживать контекст, тоже не смог занять первое место, хотя результаты были выше среднего. Вместо этого неожиданно впереди оказались более специализированные и компактные модели, которые лучше ориентировались в практических деталях задачи. Автор честно признаёт: может быть, в его ручном бенчмарке действительно была ошибка, и тогда он выбрал не совсем оптимальный парсер. Но даже если это так, результат показывает интересную закономерность: размер и самозаявленное качество AI-модели не всегда гарантируют успех в конкретной практической задаче.

Что это значит

Эксперимент напоминает разработчикам о том, что AI — это инструменты с собственными сильными и слабыми сторонами. Для специфических технических задач стоит проверять не только популярность модели, но и её реальную производительность на вашем конкретном случае. И да, иногда то, что обещает справиться за 5 минут, может потребовать вашего внимательного взгляда и валидации.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…