Как 15 AI решают поиск оптимального XML-парсера для iOS: результаты бенчмарка

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-17. Время чтения: 3 мин.

Разработчик проверил, как 15 популярных AI-моделей справляются с поиском быстрого XML-парсера для iOS, сравнив результаты со своим ручным бенчмарком. Разработчи

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-05-17· 2 мин

Как 15 AI решают поиск оптимального XML-парсера для iOS: результаты бенчмарка — Источник: Habr AI. Коллаж: Hamidun News.

◐ Слушать статью

Разработчик провел необычный эксперимент: загрузил одну и ту же задачу в 15 популярных AI-моделей и сравнил их результаты со своим ручным бенчмарком XML-парсеров для iOS.

О чём была задача

Полгода назад автор опубликовал результаты собственного поиска — какой XML-парсер для iOS, tvOS и macOS работает быстрее всех. Это была кропотливая работа: несколько часов анализировать GitHub-репозитории вручную, проверять популярность (минимум 500 звезд), поддержку языков Objective-C и Swift, интеграцию через CocoaPods или SwiftPM. За три часа упорной работы (и несколько чашек кофе) родился полноценный рейтинг оптимальных парсеров.

Может ли AI справиться быстрее

Потом пришла естественная мысль: зачем тратить 3 часа, если в интернете обещают, что AI справятся за 5 минут? Более того, есть реальный шанс, что в ручном бенчмарке где-то прокралась ошибка — неправильная интерпретация кода, упущенная деталь в характеристиках. И если это так, то AI, обладающие колоссальными объёмами знаний, возможно, найдут более правильный результат. Решение было естественным: загнать одну и ту же задачу в 15 разных AI-моделей (OpenAI, Anthropic, Google, Meta, Xai, Perplexity и другие), собрать их результаты и честно сравнить между собой и с оригинальным бенчмарком. Справедливый эксперимент.

Результаты разочаровали Результаты оказались далеки от ожиданий.

Вопреки всему, GPT 5.5 Pro не только не справился лучше остальных — он заработал последнее место. Это шокировало сразу: флагман OpenAI проиграл во всех категориях анализа, выявления популярных репозиториев и оценки производительности парсеров. Claude Opus 4.7, славящийся глубоким анализом и способностью удерживать контекст, тоже не смог занять первое место, хотя результаты были выше среднего. Вместо этого неожиданно впереди оказались более специализированные и компактные модели, которые лучше ориентировались в практических деталях задачи. Автор честно признаёт: может быть, в его ручном бенчмарке действительно была ошибка, и тогда он выбрал не совсем оптимальный парсер. Но даже если это так, результат показывает интересную закономерность: размер и самозаявленное качество AI-модели не всегда гарантируют успех в конкретной практической задаче.

Что это значит

Эксперимент напоминает разработчикам о том, что AI — это инструменты с собственными сильными и слабыми сторонами. Для специфических технических задач стоит проверять не только популярность модели, но и её реальную производительность на вашем конкретном случае. И да, иногда то, что обещает справиться за 5 минут, может потребовать вашего внимательного взгляда и валидации.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com