Как 15 AI решают поиск оптимального XML-парсера для iOS: результаты бенчмарка
Разработчик проверил, как 15 популярных AI-моделей справляются с поиском быстрого XML-парсера для iOS, сравнив результаты со своим ручным бенчмарком. Разработчи

Разработчик провел необычный эксперимент: загрузил одну и ту же задачу в 15 популярных AI-моделей и сравнил их результаты со своим ручным бенчмарком XML-парсеров для iOS.
О чём была задача
Полгода назад автор опубликовал результаты собственного поиска — какой XML-парсер для iOS, tvOS и macOS работает быстрее всех. Это была кропотливая работа: несколько часов анализировать GitHub-репозитории вручную, проверять популярность (минимум 500 звезд), поддержку языков Objective-C и Swift, интеграцию через CocoaPods или SwiftPM. За три часа упорной работы (и несколько чашек кофе) родился полноценный рейтинг оптимальных парсеров.
Может ли AI справиться быстрее
Потом пришла естественная мысль: зачем тратить 3 часа, если в интернете обещают, что AI справятся за 5 минут? Более того, есть реальный шанс, что в ручном бенчмарке где-то прокралась ошибка — неправильная интерпретация кода, упущенная деталь в характеристиках. И если это так, то AI, обладающие колоссальными объёмами знаний, возможно, найдут более правильный результат. Решение было естественным: загнать одну и ту же задачу в 15 разных AI-моделей (OpenAI, Anthropic, Google, Meta, Xai, Perplexity и другие), собрать их результаты и честно сравнить между собой и с оригинальным бенчмарком. Справедливый эксперимент.
Результаты разочаровали Результаты оказались далеки от ожиданий.
Вопреки всему, GPT 5.5 Pro не только не справился лучше остальных — он заработал последнее место. Это шокировало сразу: флагман OpenAI проиграл во всех категориях анализа, выявления популярных репозиториев и оценки производительности парсеров. Claude Opus 4.7, славящийся глубоким анализом и способностью удерживать контекст, тоже не смог занять первое место, хотя результаты были выше среднего. Вместо этого неожиданно впереди оказались более специализированные и компактные модели, которые лучше ориентировались в практических деталях задачи. Автор честно признаёт: может быть, в его ручном бенчмарке действительно была ошибка, и тогда он выбрал не совсем оптимальный парсер. Но даже если это так, результат показывает интересную закономерность: размер и самозаявленное качество AI-модели не всегда гарантируют успех в конкретной практической задаче.
Что это значит
Эксперимент напоминает разработчикам о том, что AI — это инструменты с собственными сильными и слабыми сторонами. Для специфических технических задач стоит проверять не только популярность модели, но и её реальную производительность на вашем конкретном случае. И да, иногда то, что обещает справиться за 5 минут, может потребовать вашего внимательного взгляда и валидации.