Флаг Софт: бенчмарк «Испытание Дали» помог выбрать LLM по качеству, скорости и цене
Выбирая LLM для первого пет проекта, автор собрал собственный бенчмарк «Испытание Дали» и сравнил модели по качеству, скорости и стоимости. Главный вывод практи

Выбор LLM для реального продукта редко сводится к сравнению красивых демо. Автор материала подошёл к задаче с практической стороны: пока искал модель для первого пет проекта, он собрал собственный бенчмарк «Испытание Дали» и проверил популярные LLM не по громким обещаниям, а по трём вещам, которые действительно влияют на внедрение, — качеству ответов, скорости и стоимости. Идея выросла из вполне бытовой инженерной задачи.
Когда нужно выбрать модель для собственного проекта, абстрактный вопрос «какая LLM лучшая» быстро превращается в набор прикладных ограничений. Одна модель пишет убедительно, но отвечает слишком медленно. Другая укладывается в бюджет, но теряет нить в длинных инструкциях.
Третья стабильно проходит тесты, однако итоговая цена делает её непригодной для массового продукта. Именно в такой точке и появился самодельный тест, который затем оказался полезен уже не только для личного эксперимента, но и для продуктовых решений компании Флаг Софт. В основе «Испытания Дали» лежит простая, но правильная логика.
Если модель планируется встраивать в продукт, сравнивать её надо не по единичному впечатлению от чата, а по одинаковому набору задач. Качество в таком подходе означает не просто «нравится ответ или нет», а способность модели сохранять смысл, следовать инструкции, не терять детали и выдавать результат, который можно использовать без долгой ручной правки. Скорость важна не меньше: для внутреннего инструмента можно потерпеть лишние секунды, но в пользовательском сервисе каждая задержка бьёт по удержанию и конверсии.
Стоимость — третий обязательный параметр, потому что даже сильная модель может оказаться слишком дорогой при масштабировании на тысячи запросов. В этом и ценность бенчмарка: он не ищет абсолютного чемпиона, а показывает баланс. На практике почти никогда не выигрывает модель, которая просто лучше всех пишет.
Побеждает та, что даёт приемлемое качество в нужное время и по цене, совместимой с юнит экономикой продукта. Для компании, которая хочет встроить LLM в реальный сервис, это гораздо полезнее громких таблиц с абстрактными баллами. Такой способ оценки помогает заранее увидеть, где возникнет узкое место: в задержке ответа, в бюджете на токены или в нестабильности поведения модели на похожих запросах.
Отдельно интересен прикладной вывод автора: бенчмарк помог выбрать не «самую умную» модель вообще, а оптимальную LLM для интеграции в продукты Флаг Софт. Это важное различие. Команды часто начинают внедрение с топовой модели, а потом вынуждены откатываться к более дешёвой или более быстрой альтернативе.
Здесь логика обратная: сначала формулируются реальные требования, затем под них подбирается модель. Такой порядок снижает риск дорогих переделок, когда архитектура уже завязана на провайдера, который не выдерживает экономику, скорость ответа или ожидаемый уровень сервиса. Подход автора полезен и потому, что он отражает реальное состояние рынка LLM.
Для разных сценариев могут выигрывать разные модели: генерация текстов, суммаризация, поиск по знаниям, помощь оператору, автокомплит в интерфейсе или обработка клиентских запросов. Один и тот же кандидат может отлично проявить себя в творческих задачах и провалиться там, где нужна строгая дисциплина исполнения инструкций. Поэтому кастомные бенчмарки становятся не роскошью, а базовой гигиеной для любой команды, которая собирается платить за модель из собственного бюджета и отвечать за пользовательский опыт.
Главный смысл «Испытания Дали» прост: выбирать LLM нужно так же, как любую инфраструктурную технологию, — через проверяемые метрики, а не через хайп. Если у команды есть свой набор задач, ограничение по времени ответа и понятный бюджет, она почти наверняка получит более точный ответ, чем из общего лидерборда. Для рынка это ещё один сигнал: эпоха выбора модели «по репутации» заканчивается, и на первый план выходит инженерная прагматика.